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本 篇 内 容 是 ShowMeAI 组 织 的 “图 解 机 器 学 习 算 
法 , 系列 教程 入 口 ， 本 教程 尽量 以 生动 可 届 化 的 方 
陈 ， 帮 助 大 家 理解 机 器 学 习 的 核心 知识 和 重要 的 系 


列 模型 ， 并 配 以 相关 的 代码 实现 帮助 大 家 了 解 应 用 
方法 。 (对 机 器 学 习 实 战 感 兴趣 的 同学 ， 可 以 天 注 
ShowMeAI 的 另外 一 个 系列 [机 器 学 习 应 用 实践 ] ) 


内 容 履 盖 : 机 器 学 习 基 础 、 评 估 方 法 人 难 则 、KNN、 
逻辑 回归 、 朴 素 贝 叶 斯 、 决 策 树 、 回 归 树 、 随机 森 
林 、GBDT、xgboost、lightgbm、 支 持 向 量 机 、 聚 
类 、kmeans、 降 维 算法 、PCA。 
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2. 模型 评估 方法 与 准则 
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4. 远 辑 回 归 算 法 详解 
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到 ML 
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6. 决 案 树 模 型 详解 
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8. 回归 树 模 型 详解 
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9. GBDT 模 型 详解 
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13. 果 关 算 法 详解 
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14. PCA 降 维 算法 详解 
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1. 机 器 学 习 概 述 


1 ) 什么 是 机 器 学 习 


人 工 智能 (Artificial intelligence ) 是 研究 、 开 发 
用 于 模拟 、 延 伸 和 扩展 人 的 智能 的 理论 、 方 法 、 技 
术 及 应 用 系统 的 一 门 新 的 技术 科学 。 它 是 一 个 笼统 
而 宽泛 的 概念 ， 人 工 智能 的 最 终 目标 是 使 计算 机 能 
够 模拟 人 的 思维 方式 和 行为 。 大 概 在 上 世纪 50 年 代 
开始 兴起 ， 但 是 受 限于 数据 和 硬件 设备 等 限制 ， 当 
时 发 展 缓慢 。 


人 工 智能 


名 
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深度 学 习 


巨大 的 数据 量 


| 19505 1960 
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| demp 


习 (Machine learning ) 是 人 工 智 能 的 子 
实现 人 工 智 能 的 一 种 途径 ， 但 并 不 是 唯一 的 
它 是 一 门 专门 研究 计算 机 怎样 模拟 或 实现 人 
类 的 学 习 行 为 ， 以 获取 新 的 知识 或 技能 ， 重 新 组 织 
已 有 的 知识 结构 使 之 不 断 改善 自 身 的 性 能 的 学 科 。 
大 概 在 上 世纪 80 年 代 开 始 攻 勃 发 展 ， 诞 生 了 一 大 批 
数学 统计 相关 的 机 器 学 习 模 型 。 


深度 学 习 〈Deep learning ) 是 机 器 学 习 的 子 集 ， 


灵感 来 自 人 脑 ， 由 人 工 昼 经 网 络 (ANN ) 组 成 ， 尼 
模仿 人 脑 中 存在 的 相似 结构 。 在 深度 学 习 中 ， 学 习 
是 通过 相互 天 联 的 “人 昼 经 元 4 的 一 个 帝 层 的 、 多 层 
的 网络, 来 进行 的 。“ 帝 度 , 一 词 通常 指 的 是 昼 
经 网 络 中 隐藏 层 的 数量 。 大 概 在 2012 年 以 后 爆炸 式 
增长 ， 广 泛 应 用 在 很 多 的 场景 中 。 


让 我 们 看 看 国外 知名 学 者 对 机 器 学 习 的 定义 : 


| 个 任务 T 和 一 些 绩效 测量 P, 如 


。 计算 机 程序 : 从 经 验 上 中 学 习 某 “人 
果 它 在 工 上 的 表现 ， 由 P 测量 ， 


随 经 验 E 而 改善 。 | 
CR 搜索 | 丽 信 _ShowMeAl 研 究 中 心 | 


机 器 学 习 研 究 的 是 计算 机 怎样 模拟 人 类 的 学 习 行 
为 ， 以 获取 新 的 知识 或 技能 ， 并 重新 组 织 已 有 的 知 
识 结 构 ， 使 之 不 断 改善 自身 。 从 实践 的 意义 上 来 
说 ， 机 器 学 习 是 在 大 数据 的 文 撑 下 ， 通 过 各 种 算法 
让 机 器 对 数据 进行 深层 次 的 统计 分 析 以 进行 "“ 自 
学 , ， 使 得 人 工 智 能 系统 获得 了 归纳 推理 和 决策 能 
有 


ja 
计算 机 模拟 人 类 的 学 习 行为 ， 以 获取 新 的 知识 或 技能 可 

天 

昌 


并 重新 组 织 已 有 的 知识 结构 ， 使 之 不 断 改善 自身 
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定义 


中 httpWwww.showmeaitechy 


通过 经 典 的 “垃圾 邮件 过 滤 , 应 用 ， 我 们 再 来 理解 
下 机 器 学 习 的 原理 ， 以 及 定义 中 的 T、E、P 分 别 指 
代 什 么 。 


| 
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证 志 圾 最 件 后 ， 学 会 了 如 何 更 好 地 过 | T: 将 邮件 分 类 为 垃圾 邮件 和 非 过 
滤 垃 圾 邮件 。 圾 邮件 旧 
- * :看 着 你 将 电子 邮件 标记 为 垃圾 。， 
邮件 或 非 垃圾 邮件 喝 
，，* P: 正确 介 类 为 垃圾 邮件 / 非 垃圾 
邮件 的 电子 邮件 数量 (或 分 数 ) 
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括 数 据 、 模 型 、 算 法 。 这 三 要 素 
以 用 下 面 这 幅 图 来 表示 : 


Algorithm 
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(1) 数据 

效 据 驱动 : 数据 驱动 指 的 是 我 们 基于 客观 的 量化 数 
据 ， 通 过 主动 数据 的 采集 分 析 以 文 持 决策 。 与 之 相 
对 的 是 经 验 驱 动 ， 比 如 我 们 常 说 的 “ 拍 脑袋 , 。 


| 


CD 虽 
Al 中 “数据 驱动 ”是 通过 数据 实现 “智能 ” 的 一 种 体现 一 一 通过 数据 采集 和 分 析 束 理 ， 
基于 一 个 数据 模型 和 算法 ， 自 动 地 形成 闭环 ， 自 动 调整 ， 并 使 用 到 具体 的 应 用 中 -。 穴 

用 
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史 
数据 获取 数据 应 用 数据 反馈 
芋 二 


(2 ) 模型 & 算 法 
模型 : 在 Al 数据 驱动 的 范畴 内 ， 模 型 指 的 是 基于 数 
据 X 做 决策 Y 的 假设 序数 ， 可 以 有 不 同 的 形态 ， 计 算 


型 和 规则 型 等 。 
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算法 : 指 学 习 模 型 的 具体 计算 方法 。 统 计 学 习 基 于 
训练 数据 集 ， 根 据 学 习 策 略 ， 从 假设 空间 中 选择 最 
优 模型 ， 最 后 需要 考虑 用 什么 样 的 计算 方法 求解 最 
优 模 型 。 通 弟 是 一 个 最 优化 的 问题 。 


模型 : 在 Al 数据 驱动 的 范 蝴 内 ， 模 型 的 是 基于 数据 
X 做 决策 Y 的 假设 函数 ， 可 以 有 不 同 的 形态 ， 计 算 型 和 
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算法 : 指 学 习 模 型 的 具体 计算 方法 。 统 计 学 习 基于 训 
练 数 据 集 ， 根 握 学 习 策略 ， 从 假设 空间 中 选择 最 优 模 
算法 & 模型 型 ， 最 后 需要 考虑 用 什么 样 的 计算 方法 求解 最 优 模 
型 。 通 常 是 一 个 最 优化 的 问题。 


ct 
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3 ) 机 器 学 习 发 展 历 程 


人 工 智能 一 词 最 早出 现 于 1956 年 ， 用 于 探索 一 些 问 
题 的 有 效 解 决 方案 。1960 年 ， 美 国 国防 部 借助 神 
经 网 络 , 这 一 概念 ， 训 练 计 算 机 模仿 人 类 的 推理 过 


程 。 


2010 年 之 前 ， 谷 歌 、 微 软 等 科技 巨头 改进 了 机 器 学 
习 算法 ， 将 查询 的 准确 度 提升 到 了 新 的 高 度 。 而 
后 ， 随 着 数据 量 的 增加 、 先 进 的 算法 、 计 算 和 存储 
容量 的 提高 ， 机 器 学 习 得 到 了 更 进一步 的 发 展 。 
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分 类 : 应 用 以 分 类 数据 进行 模型 训练 ， 根 据 模 
型 对 新 样本 进行 精准 分 类 与 预测 。 


聚 类 : 从 海量 数据 中 识别 数据 的 相似 性 与 差异 
性 ， 并 按照 最 大 共同 点 聚合 为 多 个 类 别 。 


异常 检测 : 对 数据 点 的 分 布 规律 进行 分 析 ， 识 
别 与 正常 数据 及 差异 较 大 的 离 群 点 。 


回归 : 根据 对 已 知 属性 值 数 据 的 训练 ， 为 模型 
寻找 最 佳 拟 合 参数 ， 基 于 模型 预测 新 样本 的 输 
出 值 。 


5 ) 机 器 学 习 基 本 流程 


机 器 学 习 工 作 流 (WorkFlow ) 包含 数据 预 处理 
(Processing ) 、 模 型 学 习 (Learning ) 、 模 型 评 
估 (Evaluation ) 、 新 样本 预测 (Prediction ) 几 个 


步 又 。 
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。 数据 预 处 理 : 输入 《未 处 理 的 数据 + 标签 ) 一 
处 理 过 程 (特征 处 理 + 幅 度 缩 放 、 特 征 选择 、 
维度 约 威 、 采 样 ) 一 输出 〈 测试 集 + 训练 


集 ) 。 


。 模型 学 习 : 模型 选择 、 交 叉 验 证 、 结 果 评 估 、 
超 参 选 择 。 


。 模型 评估 : 了 解 模型 对 于 数据 集 测试 的 得 分 。 


新 样本 预测 : 预测 测试 集 。 


6 ) 机 器 学 习 应 用 场景 


作为 一 套数 据 驱动 的 方法 ， 机 器 学 习 已 广 沁 应 用 于 
效 据 挖掘 、 计 算 机 视觉 、 自 然 语 言 处 理 、 生 物 特 征 
识别 、 搜 索引 擎 、 医 学 诊断 、 检 测 信 用 卡 欺诈、 证 
券 市 场 分析 、DNA 序 列 测序 、 语 音 和 手 与 识别 和 机 
器 人 等 领域 。 
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: 智能 假肢 、 外 骨骼 、 医 疗 保健 机 器 
器 人 、 智 能 健康 管理 等 。 


。 人 脸 识别 : 门禁 系统 、 考 勤 系统 、 人 脸 识别 防 
盗 |、 电 子 护照 及 身份 证 ， 还 可 以 利用 人 脸 识 
别 系统 和 了 网络， 在 全 国 范围 内 搜捕 逃犯 。 


机 器 人 的 控制 领域 : 工业 机 器 人 、 机 械 角 
足 机 器 人 、 扫 地 机 器 人 、 无 人 机 等 


2. 机 器 学 习 基本 名 词 
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督学 督 强化 学 习 
Supervised Learning Unsupervised Learning “ReinforcementLearning 


| 〇 槛 索 | 微 信 ShowMeAl 研 究 中 心 | 


中 http:Wwww.showmeaitechy 


监督 学 习 (Supervised Learning ) : 训练 集 


有 标记 信息 ， 学 习 方 式 有 分 类 和 回归 。 


。 无 监督 学 习 (Unsupervised Learning ) : 训 
练 集 没 有 标记 信息 ， 学 习 方 式 有 聚 类 和 人 降 维 。 


。 强化 学 习 (Reinforcement Learning ) : 有 
延迟 和 稀 卜 的 反馈 标签 的 学 习 方 式 。 


用 和 ee 后 下 


包租 tw 


标记 
| 〇 宴 索 | 赏 全 ShowMeAl 研 究 中 心 | 


毗 例 From 周志 华 《 机 器 学 习 》 


示例 /样本 : 上 面 一 条 数据 集中 的 一 条 数据 。 


属性 /特征 : “色泽 ， ' 根 蒂 ,， 等 。 


属性 空间 /样本 空间 /输入 空间 X : 由 全 部 属性 张 


。 特征 向 量 : 空间 中 每 个 点 对 应 的 一 个 坐标 向 


。 标记 : 天 于 示例 结果 的 信息 ， 如 ( (色泽 = 青 
绿 ， 根 蒂 = 蜂 缩 ， 敲 声 = 浊 响 ) ， 好 瓜 ) ， 其 中 


好 瓜 4 称 为 标记 。 


。 分 类 : 若 要 预测 的 是 离散 值 ,如 "好 瓜 ，， 
坏 瓜 ， ， 此 类 学 习 任 务 称 为 分 类 。 


。 假设 : 学 得 模型 对 应 了 关于 数据 的 某 种 潜在 规 
侍 5 


。 真相 : 潜在 规律 目 身 。 
。 学 习 过 程 : 是 为 了 找 出 或 远近 真相 。 
。 沁 化 能 力 : 学 得 模型 适用 于 新 样本 的 能 力 。 一 


般 来 说 ， 训 练 样本 越 大 ， 越 有 可 能 通过 学 习 来 
获得 具有 强 沁 化 能 力 的 模型 。 


3. 机 器 学 习 算法 分 关 


1 ) 机 器 学 习 算 法 依托 的 问题 场景 


机 器 学 习 在 近 30 多 年 已 发 展 为 一 门 多 领域 交叉 学 
科 ， 涉 及 概率 论 、 统 计 学 、 逼 近 论 、 吓 分 析 、 计 算 
复杂 性 理论 等 多 | 学 科 。 机 器 学 习 理论 主要 是 设计 


和 分 析 一 些 让 计算 机 可 以 自动 " 学习, 的 算法 。 


机 器 学 习 算 法 从 数据 中 自动 分 析 获 得 规律 ， 并 利用 
规律 对 未 知 效 据 进行 预测 。 机 器 学 习 理 论 关 注 可 以 
实现 的 、 行 之 有 效 的 学 习 算 法 。 很 多 推论 问题 属于 
无 程序 可 循 难度 ， 所 以 部 分 的 机 器 学 习 研究 是 开发 
容易 处 理 的 近似 算法 。 


1 
桶 类 : 发 现 与 榨 据 数据 分 布 的 聚集 特性 加 亚 


ing Dola 急 
时 Pi 
Ce 多 息 
机 器 学 习 基础 知识 国 和 eewe ， 区 一 名 


回归 : 预 估 输出 连续 值 结果 的 算法 


3 
吕 
砚 

强化 学 习 ; 有 延迟 奖励 的 场景 区 如 一 


依托 的 问题 场景 最 大 化 长 期 受益 


ShowMeAl 研究 中 心 


个 http:Wwww.showmeaitechy 


机 器 学 习 最 主要 的 类 别 有 : 监督 学 习 、 无 监督 学 习 


和 强化 学 习 。 


分 类 预测 | 党 习 : 
: 监督 学 习 | 和 有 数据 有 标签 的 学 习 方式 名 
< 局 
有 回归 分 析 开 
= 癌 
机 器 学 习 基 础 知识 和 
机 器 学 习 | 无 监督 学 习 有 数据 无 标 签 的 学 习 方式 罗 
算法 分 类 一 
HK、 
强化 学 习 : 
Q-leaning 
强化 学 习 有 延迟 和 释 疏 的 反馈 标签 的 学 习 方式 
时 间 差 学 习 。 个 人 得 索 | 微 信 ShowMeAl 研 究 中 心 | 


中 httpWwww.showmeaitechy 


监督 学 习 : 从 给 定 的 训练 数据 集中 学 习 出 一 个 上 孜 

数 ， 当 新 的 数据 到 来 时 ， 可 以 根据 这 个 浮 数 预测 结 
果 。 监 督 和 皖 习 的 训练 集 要 求 是 包括 输入 和 输出 ， 也 
可 以 说 是 特征 和 目标 。 训 练 集中 的 目标 是 由 人 标注 


的 。 音 见 的 监督 学习 算法 包括 回归 分 析 和 统计 分 


。 更 多 监督 学 习 的 算法 模型 总 结 可 以 查看 
ShowMeAI 的 文章 Al 知识 技能 速 查 | 机 器 学 习 - 


川 太 本 又 疡 汪 二 
监督 学 习 。 


无 监督 学 习 : 与 监督 学 习 相 比 ， 训 练 集 没 有 人 为 标 
注 的 结果 。 常 见 的 无 监督 学 习 算法 有 生成 对 抗 网 络 
CGAN ) 、 聚 类 。 


。 更 多 无 监督 学 习 的 算法 模型 总 结 可 以 查看 
ShowMeAI 的 文章 Al 知识 技能 速 查 | 机 器 学 习 - 
无 监督 学 习 。 


强化 学 习 : 通过 观察 来 学 习 做 成 如 何 的 动作 。 每 个 
动作 都 会 对 环境 有 所 影响 ， 学 习 对 象 根据 观察 到 的 
周围 环境 的 反馈 来 做 出 判断 。 


2 ) 分 类 器 题 


分 类 问题 是 机 器 学 习 非 常 重 要 的 一 个 组 成 部 分 。 它 
的 目标 是 根据 已 知 样本 的 某 些 特征 ， 判 断 一 个 新 的 
样本 属于 哪 种 已 知 的 样本 类 。 分 类 问题 可 以 细 分 如 
下 : 


。 二 分 类 问题 : 表示 分 类 任务 中 有 两 个 类 别 新 的 
样本 属于 哪 种 已 知 的 样本 类 。 


。 多 类 分 类 (Multiclass classification ) 问题 : 表 
丰 分 


刀 
示 分 类 任务 中 有 多 类 别 。 


。 多 标签 分 类 (Multilabel classification ) 问题 : 


给 每 个 样本 一 系列 的 目标 标签 。 


了 解 更 多 机 器 学 习 分 类 算法 : KNN 算 法 、 逻 辑 回 归 
算法 、 朴 素 贝 叶 斯 算法 、 决 策 树 模型 、 随机 森林 分 
类 模型 、GBDT 模 型 、XGBoost 模 型 、 支持 向 量 机 


模型 等 。 


根据 数据 样本 上 机 取出 的 特征 ， 判 定 其 属 干 有 限 个 类 别 中 的 哪 一 个 


ns*9za0R 国人 
5 网 
回 昌 分 析 本 Pr 9 
聚 类 2 | 


| 
分 类 问题 (监督 学 习 ) 要 
| 
- 


3 
垃 损 邮 件 识别 。 二 分 类 。。 这 条 邮件) 


猫 | 物 | 人 
图 像 内 容 识别 ”多 类 分 类 都 不 是 


文本 情感 分 析 。 二 分 类 。。 衷 / 哎 
多 类 分 类 


1 提 这 | 微 信 ShowMeAl 研 究 中 心 


监督 学 习 -分 类 与 回归 


时 间 差 学习 


中 httpWwwwshowmeaitechy 


3 ) 回归 问题 


了 解 更 多 机 器 学 习 回 归 算法 ; 决策 树 模型 、 随 机 森 
林 分 类 模型 、GBDT 模 型 、 回 归 树 模型 、 支 持 向量 
机 模型 等 。 


回归 问题 (监督 学 习 ) 
根据 数据 样本 上 机 取出 的 特征 ， 预 测 连 续 值 结果 


辣 旺 /9 及 e 人 下 


机 器 学 习 基础 知识 分 类 预测 
监督 学 习 全 二 由 二 
We 7 十 沙 下 应 用 场 最 : 
aaa | 于 44 ，。 《水门 桥 } 素 届 什 
有 下 本 生生 和 业 ne 
时 化 学 二 
ee 区 \ 习 要 过 | 微 信 ShowMeAi 研 究 中 心 


中 http:Wwww.showmeaitechy 


4 ) 聚 类 器 题 


聚 类 问题 (无 监督 学 习 ) 
根据 数据 样本 上 抽取 出 的 特征 ， 控 查 数 据 的 关联 模式 


iT 1 


机 器 学 习 基础 知识 


应 用 场景 : 
* 相似 用 户 控 气 /社区 发 现 


无 监督 学 习 - 聚 类 与 降 维 


中 httpWwww.showmeaitechy 


了 解 更 多 机 器 学 习 降 维 算法 : PCA 降 维 算法 。 


降 维 ( 无 监督 学 习 ) 
对 高 维 数 据 用 低 维 数据 进行 表达 ; 数据 映射 


ie 人 AT 


机 器 学 习 基础 知识 


ED 


无 监督 学 习 - 聚 类 与 降 维 


- 省 
让 起 这 | 赏 售 ShowMeh1 研 究 中 心 


中 http:Wwww.showmeaitechy 


4. 机 器 拖 习 模型 评估 与 选择 


1 ) 机 器 学 习 与 数据 拟 合 


机 器 学 习 最 典型 的 监督 学 习 为 分 类 与 回归 问题 。 分 
类 问题 中 ， 我 们 学 习 出 来 一 条 "决策 边界 ， 完成 数 
据 区 分 ; 在 回归 问题 中 ， 我 们 学 习 出 拟 合 样本 分 布 


的 曲线 。 


机 器 学 习 与 数据 杞 合 分 类 问题 (监督 学 习 ) 加 和 (8 间 习 ) 


全 


机 器 学 习 基础 知识 


ie 人 AT 


铭记 ewY 


MI 研究 中 心 


中 httpWwww.showmeaitechy 


2 ) 训练 集 与 效 据 集 
我 们 以 房价 预 估 为 例 ， 讲 述 一 下 涉及 的 概念 。 


。 训练 集 (Training Set ) : 帮助 训练 模型 ， 简 单 
的 说 就 是 通过 训练 集 的 数据 让 确定 拟 合 曲线 的 
参数 。 


。 测试 集 (Test Set ) : 为 了 测试 已 经 训练 好 的 
模型 的 精确 度 。 


司 
采集 数据 来 完成 房价 预 估 问题 ， 同 


时 把 数据 切 分 成 训练 集 和 测试 集 


由 站 ee 全 下 


机 器 学 习 基础 知识 
合 训练 集 (TrainingSet) 
全 会 仙 会 个。 合 合 合 合 合 合 合 会合 
机 器 学 习 与 数据 枚 合 会 人 合 别 斌 集 (Testseb 


答 合 鸭 ss 党 信 ShowMeA1 研 究 中 心 | 


当然 ,test set 这 并 不 能 保证 模型 的 正确 性 ， 只 是 说 
相似 的 数据 用 此 模型 会 得 出 相似 的 结果 。 因 为 在 训 
练 模型 的 时 候 ， 参 数 全 是 根据 现 有 训练 集 里 的 数据 
进行 修正 、 拟 合 ， 有 可 能 会 出 现 过 拟 合 的 情况 ， 即 
这 个 参数 仅 对 训练 集 里 的 数据 拟 合 比 较 人 准确 ， 这 个 
时 候 再 有 一 个 数据 需要 利用 模型 预测 结果 ，\ 准 确 率 
可 能 就 会 很 差 。 


3 ) 经 验 误差 


在 训练 集 的 数据 上 进行 学 习 。 模 型 在 训练 集 上 的 误 
差 称 为 “经验 误 差 , (Empirical Error ) 。 但 是 经 
验 误差 并 不 是 越 小 越 好 ， 因 为 我 们 希望 在 新 的 没有 
见 过 的 数据 上 ， 也 能 有 好 的 预 估 结 


ja 

经 验 误差 (empirical error) 王 

人 1 

在 训练 集 的 数据 上 进行 学 习 ， 模 型 在 训练 集 上 的 误差 称 为 经 验 误差 

机 器 学 习 基础 知识 辣 : 
如 如 

WE I Wi 1 一 | 

经 验 误差 = 元 2 uco)yO) = 元 > uvcoO) -yo 国 
芭 id 


经 验 误差 经 验 误差 并 不 是 越 小 越 好 一 希望 在 新 的 没有 见 过 的 数据 上 ， 也 能 有 好 的 预 估 结 果 。 


| Ki 挫 索 | 徽 信 ShowMeAl 研究 中 心 ] 
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4 ) 过 拟 合 


过 拟 合 ， 指 的 是 模型 在 训练 集 上 表现 的 很 好 ， 但 是 
在 交叉 验证 集合 测试 集 上 表现 一 般 ， 也 就 是 说 模型 
对 未 知 样本 的 预测 表现 一 般 ， 泛 化 
CGeneralization ) 能 力 较 差 。 


国 
蓝 色 的 样本 点 是 房价 样本 点 ， 黄 色 的 曲线 是 真实 模型 


机 器 学 习 基础 知识 


JE 
本 

甸 
aa 


N 个 数据 另外 N 个 数据 如 果 用 绿色 绕 这 样 的 复杂 模型 “入 
放 加 Y ， 去 氟 合 数据 ， 屠 经 验 误差 会 很 ， 
估 必 入 但 是 显然 模型 拉动 非常 请 雪 , 并 
过 合 下 不 能 平稳 地 在 新 的 数据 上 完成 
忆 预 估 ， 这 就 叫做 “过 拟 合 "。 
平方 英尺 X 平方 英尺 必 呈 吉 | 微 信 ShowMeAl 研 究 中 心 


中 httpwww.showmeaitechy 


如 何 防止 过 拟 合 呢 ? 一 般 的 方法 有 Early Stopping、 
数据 集 扩 增 (Data Augmentation ) 、 正 则 化 、 
Dropout 等 。 


。 正则 化 : 指 的 是 在 目标 闻 数 后 面 添加 一 个 正则 
化 项 ， 一 般 有 L1 正 则 化 与 L2 正 则 化 。L1 正 则 是 


基于 L1 泡 数 ， 即 在 目标 双 数 后 面 加 上 参数 的 L1 
艺 数 和 项 ， 即 参数 绝对 值 和 与 参数 的 积 项 。 


。 数据 集 扩 增 : 即 需要 得 到 更 多 的 符合 要 求 的 数 
据 ， 即 和 已 有 的 数据 是 独立 同 分 布 的 ， 或 者 近 
似 独 立 同 分 布 的 。 一 般 方法 有 : 从 数据 源头 采 
集 更 多 数据 、 复 制 诛 有 数据 并 加 上 随机 噪声 、 
重 采样 、 根 据 当前 数据 集 估 计数 据 分 布 参数 ， 
使 用 该 分 布 产 生 更 多 数据 等 。 


。 DropOut : 通过 修改 昼 经 网 络 本 身 结 构 来 实现 
的 。 


5 ) 偏 委 


偏差 ( Bias ) ， 它 通常 指 的 是 模型 拟 合 的 偏差 程 
东 集 而 期 望 拟 合 出 来 的 模型 就 是 
是 真 


实 模型 和 平均 模型 的 差异 。 


度 。 给 定 无 数 套 训练 
平均 模型 。 偏 差 就 是 


简单 模型 是 一 组 直线 ， 平 均 之 后 得 到 的 平均 模型 是 
一 条 直 的 虚线 ， 与 真实 模型 曲线 的 差别 较 大 (灰色 
阴影 部 分 较 大 ) 。 因 此 ， 简 单 模型 通常 高 偏差 。 


jl 

人 绿色 的 直线 的 是 简单 模型 (一 组 水 平 直线 ) ， 黄 色 的 曲线 是 真实 模型 总 
[ 

机 器 学 习 基础 知识 三 
wire 人 winue tx 平均 模型 ; | 


1 所 有 简单 本 昌 平均 (绿色 应 各) 
【全 大 : 二 三 
的 差异 (灰色 队 影 部 分) 大 。 


人 搜索 | 微 信 ShowMeAI 研 究 中 心 | 


复杂 模型 是 一 组 起 伏 很 大 波浪 线 ， 平 均 之 后 最 大 值 
和 最 小 组 都 会 相互 抵消 ， 和 真实 模型 的 曲线 差别 较 
小 ， 因 此 复杂 模型 通常 低 偏差 ( 见 黄色 曲线 和 绿色 
虚线 几乎 重合 ) 。 


| 

加 ) 哩 
绿色 的 曲线 的 是 复杂 模型 (一 组 起 伏 很 大 的 波浪 线 ) ， 黄 色 的 曲线 是 真实 模型 所 
路 

己 


机 器 学 习 基础 知识 


[证 

“偏差 较 小 : 真实 模型 和 平均 模型 
的 差异 (灰色 阴影 部 分 ) 小 。 

人 基 

| 人 查 索 | 微 信 ShowMeAl 研 究 中 心 | 


6 ) 方差 


方差 (Variance ) ， 它 通常 指 的 是 模型 的 平稳 程度 
(简单 程度 ) 。 简 单 模型 的 对 应 的 函数 如 出 一 ， 

都 是 水 平 直线 ， 而 且 平 均 模 型 的 函数 也 是 一 条 水 平 
直线 ， 因 此 简单 模型 的 方差 很 小 ， 并 且 对 数据 的 变 
动 不 敏 感 。 


加 
绿色 的 直线 的 是 简单 模型 (一 组 水 平 直线 ) ， 黄 色 的 曲线 是 真实 模型 


机 器 学 习 基础 知识 


证 W 


方差 -Variance 对 数据 变动 不 敏感 


?这 | 向 信 ShowMeAl 研 究 中 心 


GCC httpywwwshowmeaitechy 


复杂 模型 的 对 应 的 函数 和 干 奇 百 怪 ， 宫 无 任何 规则 ， 
但 平均 模型 的 男 数 也 是 一 条 平滑 的 曲线 ， 因 此 复杂 
模型 的 方差 很 大 ， 并 且 对 数据 的 变动 很 敏感 。 


| 
天 | 林 
人 色 的 曲 绕 的 是 复杂 模型 (一 组 起 伏 很 大 的 波浪 线 ) ， 黄 包 的 曲线 是 真实 模型 忆 
恒 
机 器 学 习 基础 知识 es 襄 
1 平均 模型: 


AOL x 《到 二 肠 | 方 偏差 较 大 : 一 条 平滑 的 曲线 ， 
方差 -Variance | 3 对 数据 的 变动 很 敏感。 
英信 


人 衬 索 | 微 信 ShowMeAl 研 究 中 心 


中 httpwwww.showmeaitechy 


需要 对 偏差 和 方差 进行 平衡 


机 器 学 习 基础 知识 


偏差 与 方差 | FE | | | 六 ”| 模型 复杂 座 | _ 
委 索 | 赏 信 ShowMeAl 研 究 中心 | 
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8 ) 性 能 度量 指标 


性 能 度量 是 衡量 模型 之 化 能 力 的 数值 评价 标准 ， 反 
上 映 了 当前 问题 (任务 需求 ) 。 使 用 不 同 的 性 能 度量 
可 能 会 导致 不 同 的 评判 结果 。 更 详细 的 内 容 可 见 模 
型 评估 方法 与 准则 


(1) 回归 问题 


天 于 模型 " 好 坏 : 的 判断 ， 不 仅 取 决 于 算法 和 数 
据 ， 还 取决 于 当前 任务 需求 。 回 归 问 题 常用 的 性 能 
度量 指标 有 : 平均 绝对 误差 、 均 方 误差 、 均 方 根 误 
差 、R 和 平方 等 。 


[| 

加 克 二 | 

MAE ME= 工 > 扩 -y SST S5T = 》 (一 区 
平均 绝对 误差 党 县 

机 器 学 习 基础 知识 SSR SS8= 2 0GD -六 用 

MSE 二 0 由 号 

人 业 吕 沁 SSsE 538= >》 UnD 一 2? 图 


性 能 度量 指 标 - 回 归 问 题 


RMSE RMSE 一 R2 ; 一 S57 
均 方 根 误差 | 〇 ie 这 | 赏 信 ShowMeAi 研 究 中 心 | 


。 平均 绝对 误差 ( Mean Absolute Error ， 
MAE ) ， 又 叫 平均 绝对 离 差 ， 是 所 有 标签 值 与 
回归 模型 预测 值 的 偏差 的 绝对 值 的 平均 。 


。 平均 绝对 百 分 误 差 (Mean Absolute 
Percentage Error ,MAPE ) 是 对 MAE 的 一 种 
改进 ， 考 虑 了 绝对 误差 相对 真实 值 的 比例 。 


。 均 方 误 差 ( Mean Square Error , MSE ) 相对 
于 平均 绝对 误差 而 言 ， 均 方 误 差 求 的 是 所 有 标 
签 值 与 回归 模型 预测 值 的 偏差 的 平方 的 平均 。 


。 均 方 根 误差 ( Root-Mean-Square Error ， 
RMSE ) ， 也 称 标准 误差 ， 是 在 均 方 误差 的 基 
础 上 进行 开 方 运算 。RMSE 会 被 用 来 衡量 观测 
值 同 真 值 之 间 的 偏差 。 


。R 平 方 ， 决 定 系 数 ， 反 映 因 变 量 的 全 部 变异 能 
通过 目前 的 回归 模型 被 模型 中 的 自 变量 解释 的 
比例 。 比 例 越 接近 于 1， 表 示 当 前 的 回归 模型 
对 数据 的 解释 越 好 ， 越 能 精确 描述 数据 的 真实 
分 布 


(2 ) 分 类 问题 


分 类 问题 常用 的 性 能 度量 指标 包括 错误 率 (Error 
Rate ) 、 精 确 率 ( Accuracy ) 、 碍 准 率 
(Precision ) 、 查 全 率 (Recall ) 、F1、ROC 曲 
线 、AUC 曲 线 和 R 平 方 等 。 更 详细 的 内 容 可 见 模型 
评估 方法 与 准则 


| 志 1 赤 | 
错误 率 ECi;D)= 元》 MGoo) =2) 精确 率 kce(1;D) = 元》 /CD = 2 = 5 到 
学 所 四 
二 分 类 混淆 给 阵 。 Pr 呈 
机 器 学 习 基 础 知识 Heeuracy = DDN S 
二 PrAAHAFRT 
后 > 

呈 必 到 和 村 

和 RN 
本 二 
性 能 度量 指标 -分 类 问题 过 三 G + 冯 Precision X RecatL 
下 三 B2x Precision 二 Recail 
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。 错误 率 : 分 类 错误 的 样本 数 占 样本 总 数 的 比 
例 。 


。 精确 率 : 分 类 正确 的 样本 数 占 样本 总 数 的 比 
例 。 


。 碍 准 率 ( 也 称 准 确 率 ) ， 即 在 检索 后 妈 回 的 结 
果 中 ， 真 正 正 确 的 个 数 占 你 认为 是 正确 的 结果 
的 比例 。 


。 查 全 率 (也 称 召回 率 ) ， 即 在 检索 结果 中 真正 
正确 的 个 数 ， 上 王 整 个 效 据 集 ( 检索 到 的 和 未 检 
索 到 的 ) 中 真正 正确 个 数 的 比例 。 


。F1 是 一 个 综合 考虑 查 准 率 与 查 全 率 的 度量 ， 其 
基于 查 准 率 与 查 全 率 的 调和 平均 定义 : 即 : F1 
度量 的 一 般 形 式 -FBp， 能 让 我 们 表达 出 对 查 准 
率 、 碍 全 率 的 不 同 含 好 。 


ROC 曲 线 ( Receiver Operating Characteristic 


Curve ) 全 称 是 ' 受 试 者 工作 特性 曲线 。 综 合 考 
虑 了 概率 预测 排序 的 质量 ， 体 现 了 学 习 器 在 不 同 任 
务 下 的 “期 望 沁 化 性 能 , 的 好 坏 。ROC 曲 绪 的 纵 轴 
是 “真正 例 率 (TPR ) ， 横 轴 是 “ 假 正 例 率 ， 
(CFPR ) 。 


AUC (Area Under ROC Curve ) 是 ROC 曲 线 下 面 
积 ， 代 表 了 样本 预测 的 排序 质量 。 


[| 
Shaw Ne 了 于 了 多 
是 ROC 曲 线 反 映 了 TPR 和 FPR 随 闭 值 的 变化 情况 “ES 
ROC 曲 曲线 越 楼 近 左 上 角 ， 表 示 该 介 类 器 的 性 能 越 好 “二 
机 器 学 习 基础 知识 9 
虽 
确 
AUC 
100 多 AUC 值 为 ROC 曲线 所 覆盖 区 域 面 积 
AUC 值 越 大 ,就 能 够 保证 ROC 曲线 越 靠 近 左 上 方 
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从 一 个 比较 高 的 角度 来 认识 AUC : 仍然 以 异常 
用 户 的 识别 为 例 ， 高 的 AUC 值 意味 着 ， 模 型 在 
能 够 尽 可 能 多 地 识别 异 音 用 户 的 情况 下 ， 仍 然 
对 正常 用 户 有 着 一 个 较 低 的 误 判 率 (不 会 因为 
为 了 识别 异 囊 用户 ， 而 将 大 量 的 正常 用 户 给 误 
判 为 异 音 。 


9 ) 评估 方法 
我 们 手 上 没有 未 知 的 样本 ， 如 何 可 靠 地 评估 ? 关键 


是 要 获得 可 靠 的 “测试 集 数 据 ， (Test Set ) ， 即 
测试 集 ( 用 于 评估 ) 应 该 与 训练 集 ( 用 于 模型 学 
习 ) 5 互 斥 ， o 


全 


机 器 学 习 基础 知识 


Q: 什么 模型 好 ? 
和 A: 泛 化 能 力 强 ! 


， 


AN 
支持 向 重 机 , 


> 

4 | 
能 很 好 地 适用 于 没 见 过 的 样 怀 

例如 ， 销 误 率 低 .精度 高 


7 局 划 e 全 下 


评估 方法 
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冲 见 的 评估 方法 有 : 留 出 法 (Hold-out ) 、 交 叉 验 
证 法 〈( Cross Validation ) 、 自助 法 
(Bootstrap ) 。 更 详细 的 内 容 可 见 模型 评估 方法 
与 准则 


留 出 法 (Hold-out ) 是 机 器 学 习 中 最 弟 见 的 评 佑 方 
法 之 一 ， 它 会 从 训练 数据 中 保留 出 验证 样本 集 ， 这 
部 分 数据 不 用 于 训练 ， 而 用 于 模型 评估 。 


划分 时 一 般 不 宜 随机 划分 ， 可 以 | 数据 集 D Original set ] 
网 采用 分 层 抽样 方式 选择 测试 数据 ， 和 [ 柚 副 

5 Trainin gset | Testsei | 

保证 数据 分 布 比例 的 平衡 。 多 


一 般 多 次 重复 “划分 -训练 -测试 求 
误差 "的 步骤 ， 取 误差 的 平均 值 。 


机 器 学 习 基础 知识 


测试 集 T 不 能 太 大 或 太 小 ， 和 否则 
评估 将 拓 去 准确 度 或 意义 ， 常 用 
评估 方法 - 留 出 法 做 法 是 选 树 1/5-1/3 左 右 数据 用 二 


评估 。 


“ 合 ShowMeAl 研究 中 心 


机 器 学 习 中 ， 另 外 一 种 比较 营 见 的 评估 方法 是 交叉 


验证 法 〈 Cross Validation ) 。k 折 交 叉 验 证 对 k 


个 不 同 分 组 训练 的 结 


进行 平均 来 碱 少 方差 ， 因 此 


模型 的 性 能 对 数据 的 划分 就 不 那么 敏感 ， 对 数据 的 
使 用 也 会 更 充分 ， 模 型 评估 结果 更 加 稳定 。 


机 器 学 习 基础 知识 


评估 方法 - 交 双 验证 法 


中 http:Wwww.showmeaitechy 


数据 量 小 的 时 候 ，k 设 大 一 点 ; 数 
据 量 大 的 时 候 ，k 可 以 设 小 一 点 。 


k 一 般 取 10。 


当 k=m 即 样本 总 数 时， 叫做 加 
一 法 (Leave-DneOub LOD)， 
每 次 的 测试 集 都 只 有 一 个 样本 ， 

要 进行 m 次 训练 和 预测 。 
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自助 法 (Bootstrap ) 是 一 种 用 小 样本 估计 总 体 值 
的 一 种 非 参 数 方法 ， 在 进化 和 生态 学 研究 中 应 用 十 


分 三 。 


Bootstrap 通 过 有 放 回 抽样 生成 大 量 的 伪 样 本 ， 通 过 
对 伪 样 本 进行 计算 ， 获 得 统计 量 的 分 布 ， 从 而 估计 
效 据 的 整体 分 布 。 


机 器 学 习 基础 知识 


评估 方法 -自助 法 


中 httpwww.showmeaitechy 


Original Dataset 
对 上 个 样本 进行 m 次 有 帮 回 采 


样 得 到 训练 靠 Training Sets， 剩 
下 的 作为 测试 靠 TestSets。 


训 绎 告 与 原样 本 集 同 规模 ， 数 据 
分 布 有 所 改变 ， 其 中 会 出 现 部 分 
样本 重复 。 


约 有 36.8% 的 样本 不 出 现 ， 这 部 
分 作为 测试 靠 。 


10 ) 模型 调 优 与 选择 佳 则 


我 们 希望 找到 对 当前 问题 表达 能 力 好 ， 且 模型 复杂 
度 较 低 的 模型 : 


四 | 
希望 找到 对 当前 问题 袁 达 和 能力 好 ， 且 模型 复 休 度 较 低 的 模型 


机 器 学 习 基础 知识 


模型 调 优 与 选择 准则 


中 http:Wwww.showmeaitechy 


。 表达 力 好 的 模型 ， 可 以 较 好 地 对 训练 数据 中 的 
规律 和 模式 进行 学 习 ; 


复杂 度 低 的 模型 ， 方 差 较 小 ， 不 容易 过 拟 合 ， 
有 较 好 的 泛 化 表达 。 
11 ) 如 何 选择 最 优 的 模型 


(1 ) 验证 集 评估 选择 
。 切 分 数据 为 训练 集 和 验证 集 。 


。 对 于 准备 好 的 候选 超 参 数 ， 在 训练 集 上 进行 模 
型 ， 在 验证 集 上 评估 。 


(2 ) 网 格 搜索 /随机 搜索 交叉 验证 
。 通过 网 格 搜 寺 / 随 机 搜索 产 出 候选 的 超 参数 组 。 


。 对 参数 组 的 每 一 组 超 参数 ， 使 用 交叉 验证 评估 
效果 。 


。 选 出 效果 最 好 的 超 参 数 。 
(3 ) 贝 叶 斯 优化 
。 基 于 贝 叶 斯 优化 的 超 参数 调 优 。 
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可 以 点 击 B 站 查看 视频 的 【双语 字幕 】 版 本 
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吴 恩 达 主 讲 (2018. 完 整 版 ) 
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ShowMeAl 相 关 文 章 推荐 


。 1. 机 器 学 习 基 础 知识 

。 2. 模 型 评估 方法 与 准则 
。3.KNN 算 法 及 其 应 用 

。 14. 逻辑 回归 算法 详解 
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。 6. 决 策 树 模型 详解 
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。9.GBDT 模 型 详解 

。 10.XGBoost 模 型 最 全 解析 
。11.LightGBM 模 型 详解 

。 12. 支 持 向 量 机 模型 详解 
。 13. 聚 类 算法 详解 

。 14.PCA 降 维 算 法 详解 


ShowMeAl 系 列 教程 推 荐 


。 图 解 Python 编程 : 从 入 门 到 精通 系列 教程 
。 图 解数 据 分 析 : 从 入 门 到 精通 系列 教程 
。 图 解 Al 数学 基础 : 从 入 门 到 精通 系列 教程 


。 图解 大 数据 技术 : 从 入 门 到 精通 系列 教程 
。 图 解 机 器 学 习 算法 : 从 入 门 到 精通 系列 教程 
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科学 家 门 捷 列 夫 说 ' 没有 测量 ， 就 没有 科学 ，， 在 
Al 场景 下 我 们 同样 需要 定量 的 数值 化 指标 来 指导 我 
们 更 好 地 应 用 模型 对 数据 进行 学 习 和 建 模 。 


事实 上 ， 在 机 器 学 习 领 域 ， 对 模型 的 测量 和 评估 至 
天 重要 。 选 择 与 问题 相 匹配 的 评估 方法 ， 能 帮助 我 
们 快速 准确 地 发 现在 模型 选择 和 训练 过 程 中 出 现 的 
问题 ， 进 而 对 模型 进行 优化 和 迭代 。 本 文 我 们 系统 
地 讲解 一 下 机 器 学 习 模型 评估 相关 知识 。 


(本 篇 内 容 会 涉及 到 不 少 机 器 学 习 基 础 知识 ， 没 有 
先 序 知识 储备 的 宝宝 可 以 查看 ShowMeAI 的 文章 
解 机 器 学 习 | 机 器 学 习 基 础 知识 。 


1. 模 型 评估 的 目标 


模型 评估 的 目标 是 选 出 沁 化 能 力 强 的 模型 完成 机 器 
学 习 任务 。 实 际 的 机 器 学 习 任务 往往 需要 进行 大 量 
的 实验 ， 经 过 反复 调 参 、 使 用 多 种 模型 算法 ( 甚至 
多 模型 融合 策略 ) 来 完成 自己 的 机 器 学 习 问 题 ， 并 
观察 哪 种 模型 算法 在 什么 样 的 参数 下 能 够 最 好 地 完 
成 任务 。 


模型 评估 方法 /准则 


迁 出 泛 化 能 力 强 的 模型 ”: 蝇 
完成 机 器 学 习 任 务 


CN 搜索 | 微 信 ShowMeAl 研究 中 心 
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沁 化 能 力 强 的 模型 能 很 好 地 适用 于 未 知 的 样本 ， 模 
型 的 错误 率 低 、 精 度 高 。 机 器 学 习 任 务 中 ， 我 们 希 
望 最 终 能 得 到 准确 预测 未 知 标签 的 样本 、 沁 化 能 


强 的 模型 。 


| 
ns 1 则 入 
站 而 | q: 什 么 模型 好 ? ”于 
模型 评估 方法 /准则 二 CE 
决策 码 ， 神 经 网 络 ， 支 持 向 量 机 . 

Boosting， 贝 时 其 网 到 
\\ 能 很 好 地 适用 二 没 见 过 的 样 达 

如 ,错误 率 低 、 精 度 高 


一 本 
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但 是 我 们 无 法 提前 获取 " 未 知 的 样本 ， ， 因 此 我 们 
会 基于 已 有 的 数据 进行 切 分 来 完成 模型 训练 和 评 

估 ， 借 助 于 切 分 出 的 数据 进行 评估 ， 可 以 很 好 地 判 
定 模型 状态 (过 拟 合 or 欠 拟 合 ) ， 进 而 迭代 优化 。 


在 建 模 过 程 中 ， 为 了 获得 沁 化 能 力 强 的 模型 ， 我 们 
需要 一 整套 方法 及 评价 指标 。 


。 评估 方法 : 为 保证 客观 地 评估 模型 ， 对 数据 集 


进行 的 有 效 划分 实验 方法 。 
性 能 指标 : 量化 地 度量 模型 效果 的 指标 。 
2. 离 线 与 在 线 实 验方 法 


进行 评估 的 实验 方法 可 以 分 为 离线: 和 "在线 ， 
两 种 。 


人 
使 用 历史 数据 训练 一 个 适合 解决 目 对 模型 进行 验证 (Validation 与 通过 评估 指标 选择 二 
标 任务 的 一 个 或 多 个 机 器 学 习 模型 ”离线 评估 (Ofhine Evaluation) 一 个 较 好 的 模型 和 ~ 


全 


模型 评估 方法 /准则 


在 线 实验 阶段 ， 当 模 
达到 设 定 的 指标 值 时 
便 将 模型 上 线 ， 投 入 生 
产 ， 使 用 新 生成 的 数据 
来 对 该 模型 进行 在 线 
评估 。 
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1 ) 离线 实验 方法 


模型 评估 通常 指 离线 试验 。 原 型 设计 
(Prototyping ) 阶段 及 离线 试验 方法 ， 包 含 以 下 几 


个 过 程 : 


。 使 用 历史 数据 训练 一 个 适合 解决 目标 任务 的 一 


个 或 多 个 机 器 学 习 模型 。 


。 对 模型 进行 验证 (Validation ) 与 离线 评估 


(Offline Evaluation ) 。 


。 通过 评估 指标 选择 一 个 较 好 的 模型 。 


2 ) 在 线 买 验方 法 


除了 离线 评估 之 外 ， 其 实 还 有 一 种 在 线 评估 的 实验 
方法 。 由 于 模型 是 在 老 的 模型 产生 的 数据 上 学 习 和 
验证 的 ， 而 线 上 的 数据 与 之 前 是 不 同 的 ， 因 此 离线 
评估 并 不 完全 代表 线 上 的 模型 结果 。 因 此 我 们 需要 
在 线 评估 ， 来 验证 模型 的 有 效 性 。 


在 线 实 验 有 一 个 杰出 代表 ， 那 就 是 AB Test。 


| 
A、B 方 案 可 能 是 一 组 算法 、 一 组 文案 一 组 运营 活动 .一 组 ul 样式 ,同时 实验 的 并 不 一 定 是 AB 两 叶 


隔 ] 


模型 评估 方法 /准则 


六 


在 线 实验 方法 -A/B 测 斌 


9%6 6 0.796 2.536 
ET 本 
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A/B Test 是 目前 在 线 测试 中 最 主要 的 方法 。A/B 

Test 是 为 同一 个 目标 制定 两 个 方案 让 一 部 分 用 户 使 
用 A 方 案 ， 另 一 部 分 用 户 使 用 B 方 案 ， 记 录 下 用 户 的 
使 用 情况 ， 看 哪个 方案 更 符合 设计 目标 。 如 果 不 做 
AB 实 验 直接 上 线 新 方案 ， 新 方案 甚至 可 能 会 毁 掉 你 


实验 日 标 是 获得 销量 增长 下 是 利 酒 增长 等 ， 希 要 首先 了 三 | 本 

选 架 茸 机 试验 or 配对 实验 本 

、:; -| 
模型 评估 方法 /准则 选择 测 | (unit) 对 实验 中 的 基本 个 体 进行 分 组 所 
加 

| 

控制 变量 表示 测试 组 与 对 时 组 之 间 的 关系 村 


两 的 这 车 可 以 提 和 统计 显 车 性 检验 的 准 只 率 | 
人 2 到 光 

在 线 实验 方法 -人 VB 测试 进行 实验 并 获取 数据 根据 撞 处 理 数据 ， 确 保 无 重复 宛 ; 

ji 提升 度 计算 ) 


| 〇 要 索 | 微 信 ShowwMeAl 研 究 中 心 | 
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3 ) 评估 指标 


在 离线 评估 中 ， 经 常 使 用 准确 率 (Accuracy ) 、 查 
准 率 (Precision ) 、 召 回 率 (Recall ) 、ROC、 
AUC、PRC 等 指标 来 评估 模型 。 


在 线 评估 与 离线 评估 所 用 的 评价 指标 不 同 ， 一 般 使 
用 一 些 商业 评价 指标 ， 如 用 户 生 命 周期 值 
CCustomer Lifetime value ) 、 广 告 点 击 率 
(Click Through Rate ) 、 用 户 流失 率 (Customer 
Churn Rate ) 等 标 。 


我 们 将 常见 的 评估 指标 汇总 如 下 : 


离线 评估 


模型 评估 方法 /准则 准确 率 (Accuracy )、 查 准 率 (Precision ) .召回 率 (RecalD、ROC、AUC、PRC 等 


【1 


二 


在 线 评估 
评估 指 标 汇总 用 户 生 命 周期 值 (Customer Lifetime value) 、 广告 点 击 率 (Click Through Rate) 、 
用 户 流 拓 率 (Customer Churn Rate) 等 


[@ 搜索 | 微 售 ShowMeA1 研 究 中 心 | 
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3. 吊 见 模型 评估 方法 介绍 


下 面 我 们 来 了 解 一 下 模型 评 佑 方法， 主要 涉及 到 对 
完整 数据 集 不 同 的 有 效 划分 方法 ， 保 证 我 们 后 续 计 
算得 到 的 评估 指标 是 可 靠 有 效 的 ， 进 而 进行 模型 选 
择 和 优化 。 


1) 留 出 法 (Hold-out ) 


留 出 法 是 机 器 学 习 中 最 冲 见 的 评估 方法 之 一 ， 尼 会 
从 训练 数据 中 保留 出 验证 样本 集 ， 这 部 分 数据 不 用 
于 训练 ， 而 用 于 模型 评估 。 


完整 的 数学 定义 如 下 : 


对 于 一 个 机 器 学 习 上 问题， 通常 有 数据 集 D ( 用 于 训 
练 模型 ) ， 但 还 需要 评估 模型 ， 因 此 不 能 把 整个 D 
用 于 训练 ， 因 为 拿 训 练 过 的 数据 再 去 评估 必然 无 

效 。 那 么 最 基本 的 方法 就 是 留 出 法 : 把 D 划 分 为 两 


部 分 ， 训 练 集 S 和 测试 集 T， 其 中 SUT=D ， 
SnT= 中 。 


到 

划分 时 一 般 不 宣 随 机 划分 ， 可 以 | 下 横 信 Pen 人 | 
采用 分 层 柏 样 方式 先 树 测试 数据 ， 二 | 

保证 数据 分 布 比例 的 平 衢 。 训练 集 S Training set estse 悦 


模型 评估 方法 /准则 


一 般 多 次 重复 “划分 训练- 测试 求 
误差 ”的 步骤 ， 取 误差 的 平均 值 。 


测试 集 T 不 能 太 大 或 太 小 ,否则 
评估 将 拓 去 准确 度 或 意义 ,常用 
留 出 法 (hold-out) 做 法 是 选择 1/5-1/3 左 右 数据 用 干 
评估 。 


人 httpywwwshowmeaitechy | 轩 9 超过 | 党 售 ShowMeAl 研 究 中 心 | 


下 面 是 留 出 法 数据 划分 的 注意 点 


。 随机 划分 不 一 定 能 保证 有 效 性 ， 因 为 如 果 T 中 
正好 只 取 到 有 某 一 种 特殊 类 型 数据 ， 
人 此 时 处 理 方法 要 钢 具 体 情 ， 
, 如 当 数 据 明显 的 分 为 有 限 类 时 ， 
呈 抽样 方式 选择 测试 数据 ， 保 证 数据 分 布 比 
例 的 平衡 。 


。 单 次 划分 不 一 定 能 得 到 合适 的 测试 集 ， 一 般 多 
次 重复 人 - 训 不 - We 的 步骤 ， 
取 误 差 的 平均 值 。 


划分 的 验证 集 ， 太 大 或 者 太 小 都 不 合适 ， 常 用 
做 法 是 选择 1/5 - 1/3 左 右 数 据 当 作 验 证 集 用 于 
评估 。 


2 ) 交叉 验证 法 (Cross Validation ) 


留 出 法 的 数据 划分 ， 可 能 会 达 来 偏差 。 在 机 器 学 习 
中 ， 另 外 一 种 比较 营 见 的 评估 方法 是 交叉 验证 法 
一 一 K 折 交叉 验证 对 K 个 不 同 分 组 训练 的 结果 进行 平 
均 来 碱 少 方差 。 


因此 模型 的 性 能 对 数据 的 划分 融 不 那么 敏感 ， 对 数 
据 的 使 用 也 会 更 充分 ， 模 型 评估 结果 更 加 稳定 ， 可 
以 很 好 地 避免 上 述 问 题 。 
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3 ) 目 助 法 (Bootstrap ) 


部 分 场景 下 ， 数 据 量 较 少 ， 很 难 通过 已 有 的 数据 来 
估计 数据 的 整体 分 布 〈 因 为 数据 量 不 足 时 ， 计 算 的 
统计 量 反 映 不 了 数据 分 布 ) ， 这 时 可 以 使 用 
Bootstrap 自 助 法 。 


Bootstrap 是 一 种 用 小 样本 估计 总 体 值 的 一 种 非 参数 


方法 ， 在 进化 和 生态 学 研究 中 应 用 十 分 广泛 。 
Bootstrap 通 过 有 放 回 抽样 生成 大 量 的 伪 样 本 ， 

过 对 伪 样 本 进行 计算 ， 获 得 统计 量 的 分 布 ， 
计数 据 的 整体 分 布 。 


加 oo 
ER 对 站 个 样 本寺 行 m 次 及 回 采 


样 得 到 训练 千 Training Sets， 鳃 
模型 评估 方法 /准则 人 


训练 靠 与 原样 本 集 同 规模 ， 数 据 
分 布 有 所 改变 ， 其 中 会 出 现 部 分 


问 
自助 法 (bootstrap) 约 有 36.8% 的 样本 不 出 现 ， 这 部 im 和 
分 作为 测试 入 。 


有 了 有 效 的 模型 评估 方法 ， 我 们 还 需要 量化 的 度量 
标准 来 精准 评估 与 判断 。 下 文 归纳 了 分 类 与 回归 问 
题 的 各 类 评估 指标 。 


4. 回 归 问 题 昔 用 的 评估 指标 


回归 类 问题 场景 下 ， 我 们 会 得 到 连续 值 的 预测 结 
果 ， 比 对 标准 答案 ， 我 们 有 MAE、MSE、RMSE 等 
评估 指标 〈 准则 ) 可 以 衡量 预测 结果 相对 实际 情况 
的 偏离 程度 ， 它 们 的 取 值 越 小 说 明 回 归 模 型 的 预测 
越 准 ， 模 型 性 能 越 好 。 如 下 图 所 示 : 


加 1 严 症 | 
MAE 加 故 到 na 盯 
和 全 1reo) 一 2 ssT S57 2 芒 4 
MAPE _zoosS | | 国人 
模型 评估 方法 /准则 国 攻 ER 
MSE 世间 才 品 
可 := 芝 
均 方 误差 2 三 SSE 55E = 2 =-) 夺 
RMSE .353R 
均 方 根 误差 RMSE = VMoE R2 决定 系数 把 二 
校正 决定 系数 2 ，， 4- 一 1 一 
R2_adjusted 人 | 人 要 索 | 微 信 ShowMeA1 研 究 中 心 | 


1 ) 平均 绝对 误 委 MAE 


平均 绝对 误差 (Mean Absolute Error ,MAE ) ， 
又 叫 平 均 绝对 离 差 ， 是 所 有 标签 值 与 回归 模型 预测 
值 的 偏差 的 绝对 值 的 平均 。 


。 优点 : 直观 地 反映 回归 模型 的 预测 值 与 实际 值 
之 间 的 偏差 。 准确 地 反映 实际 预测 误差 的 大 
小 。 不 会 出 现 平均 误差 中 误差 符号 不 同 而 导致 
的 正 负 相互 抵消 。 


。 缺点 : 不 能 反映 预测 的 无 偏 性 ( 估算 的 偏差 就 
是 估计 值 的 期 望 与 真实 值 的 差 值 。 无 偏 就 要 求 
估计 值 的 期 时 就 是 真实 值 ) 。 


MAE=1m2i=1mlIf(xi)-yilMAE=racf{1) 
{tmj sum_fi=1)^(mAleftlAleft(x_ 人 right)-y_ 人 Nightl 
MAE=m1Ti=1 2 mlIf(xi)-yi| 


JE 
CD 绝对 误差 首 mm 为 样本 数 ，xi 为 第 ; 个 样本 吧 
= 局 MAE 了 | 
W4E = 二 》 ra) -r| Aco BR 
M te E 人 
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ean Absolute Error 二 7 为 立 的 预测 值 ，v 为 其 对 应 的 wxs 开 


所 有 标签 值 与 回归 模型 预测 值 的 偏差 的 绝对 值 的 平均 


平均 绝对 百 分 误 差 MAPE WO 呈 汪 /四 
Mean Absolute Percentage Error We 站 
MAE / MAPE 


对 MAE 的 一 种 改进 ， 考 虑 了 绝对 误差 相对 真实 值 的 比例 


2 ) 平均 绝对 百 分 误 委 MAPE 


虽然 平均 绝对 误差 能 够 获得 一 个 评价 值 ， 但 是 你 并 
不 知道 这 个 值 代表 模型 拟 合 是 优 还 是 儿 ， 只 有 通过 
对 比 才 能 达到 效果 。 当 需要 以 相对 的 观点 来 衡量 误 
差 时 ， 则 使 用 MAPE。 


平均 绝对 百 分 误 差 (Mean Absolute Percentage 
Error ,MAPE ) 是 对 MAE 的 一 种 改进 ， 考 虑 了 绝对 
误差 相对 真实 值 的 比例 。 


。 优 点 : 考虑 了 预测 值 与 真实 值 的 误差 。 考 虑 了 
误差 与 真实 值 之 间 的 比例 。 


MAPE=100m2i=1mlyi-f(xi)yil 
MAPE=\frac{100}{m} sum_{i=1)^(m Aleft | 
rac{y_ 全 -Aleft(x_ 人 right)fy_ 位 right | 
MAPE=m100i=12 mllyiyi-fCxi) 川 


在 某 些 场景 下 ， 如 房价 从 5K 到 50K 之 间 ，5K 
预测 成 10K 与 50K 预 测 成 45K 的 差别 是 非常 大 
的 ， 而 平均 绝对 百 分 误差 考虑 到 了 这 点 。 


3 ) 均 方 误差 MSE 


MAE 虽 能 较 好 衡量 回归 模型 的 好 坏 ， 但 是 绝对 值 的 
存在 导致 蚊 数 不 光滑 ， 在 某 些 点 上 不 能 求 导 。 可 以 
考虑 将 绝对 值 改 为 残 差 的 平方 ， 就 得 到 了 均 方 误 
差 。 


均 方 误差 (Mean Square Error , MSE ) 相对 于 平 
均 绝 对 误差 而 言 ， 均 方 误 差 求 的 是 所 有 标签 值 与 回 
归 模 型 预测 值 的 偏差 的 平方 的 平均 。 


。 优 点 : 准确 地 反映 实际 预测 误差 的 大 小 。 放 大 
预测 偏差 较 大 的 值 。 比 较 不 同 预测 模型 的 稳定 
性 。 


。 和 缺点 : 不 能 反映 预测 的 无 偏 性 。 


MSE-1m?i=1m(f(xi)-yi)2MSE- 
racf1ml \sum_{fi=1yA(myNeft(Neft(x_ fight)- 
y fijvightbyAf2} MSE=m1i=12 m(f(x)-yi)2 


四 | 均 方 误差 MSE 业 
M3E = 二》 (UnD -2 
Mean Square Error 
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ar 


所 有 标签 值 与 回归 模型 预测 值 的 偏差 的 平方 的 平均 


均 方 根 误差 RMSE 


Root Mean Square Error 


RMSE =VMSE = 


总 
元 2 Co 一 2 
MSE / RMSE 


RMSE 是 均 方 误差 MSE 的 平方 提 
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4 ) 均 方 根 误差 RMSE 


均 方 根 误差 ( Root-Mean-Square Error ， 
RMSE ) ， 也 称 标准 误差 ， 是 在 均 方 误差 的 基础 上 
进行 开 方 运算 。RMSE 会 被 用 来 衡量 观测 值 同 真 值 
之 间 的 偏差 。 


RMSE=MSE=1m2i=1m(f(xi)-yi)2 
RMSE=\sdqrt{MSE)} =\sqrtffrac{1{ml sum_{i=1} 
^{mAIeft(Neft(x_{DNright)-y_{ 人 Dright)A{2}} 
RMSE=MSE 

=m1 
i=1>2m(f(xi)-yD)2 


5 ) 决定 系数 


决定 系数 R 平 方 与 之 前 介绍 的 三 个 指标 有 所 不 同 ， 
它 表 征 的 是 因 变 量 y 的 变化 中 有 多 少 可 以 用 自 变 量 x 


来 解释 ， 是 回归 方程 对 观测 值 拟 合 程度 的 一 种 体 
现 。 


R 和 平方 越 接近 1， 说 明 回归 模型 的 性 能 越 好 ， 即 能 够 
解释 大 部 分 的 因 变 量变 化 。 


。 优点 : 用 于 定量 朱 述 回归 模型 的 解释 能 力 。 


。 缺点 : 没有 考虑 特征 数量 变化 的 影响 。 无 法 比 
较 特 征 数 目 不 同 的 回归 模型 。 


R2-SSRSSTRA(2}-=\racfSSRJfSST) 
R2-SSTSSR 
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决定 系数 -R 平 方 ST=》O- 六 S5R= 7》 UGD -六 SS- >》 一 o 


| 守 答 这 | 党 舍 ShowwMeAl 研 究 中 心 | 
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。 SSR : Sum of Squares of the Regression ， 即 
预测 数据 与 原始 数据 均值 之 差 的 平方 和 ， 反 映 
的 是 模型 相对 原始 数据 均值 的 离散 程度 。 


。SST : Total Sum of Squares， 即 原始 数据 和 
均值 之 差 的 平方 和 ， 反 映 的 是 原始 数据 相对 均 


值 的 离散 程度 。 


。 SSE : Sum of Squares for Error， 残 差 平方 
和 ， 原始 数据 和 预测 数据 之 差 的 平方 和 。 


CD ， SSR 
SR 决定 系数 R 平 广 尼 一 SST = SSR1SSB 
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ve 人 AT 


R 平 方 表征 的 是 回归 方程 在 多 大 程度 上 解释 了 因 变 量 的 变化 


(一 R2)0n 一 1) 。 几 为 样本 数 
、- 2 全 让 本 nn 让 和风 

校正 决定 系数 R2_adjzrsted=1 7 “由 
R2/7 R2_aa1usted 


校正 决定 系数 可 以 消除 样本 数量 mm 和 特征 数量 ”的 影 只 
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6 ) 校正 决定 系数 


在 利用 R 平 方 来 评价 回归 方程 的 优 纹 时 ， 随 着 自 变 
量 个 数 的 不 断 增 加 ，R 平 方 将 不 断 增 大 。 而 校正 决 
定 系 数 则 可 以 消除 样本 数量 和 特征 数量 的 影响 。 


。 优 点 : 在 决定 系数 R 平 方 的 基础 上 考虑 了 特征 
个 数 的 影响 。 比 较 变 量 数 不 同 的 模型 。 


R-2adiusted =1-(1-R2)(m-1)m-n- 
1 R^{2} (1 Ntext {adjusted }=1-\fracfleft(1- 
R^A{2}right)(m-1T)){m-n-1) R=-2adjusted =1-m-n 
-1(1-R2)(m-=--1) 


5. 回 归 评 估 指 标 适 用 场景 分 析 


在 熟悉 了 回归 问题 的 各 种 评价 指标 后 ， 再 来 看 看 各 
自 适 用 的 具体 场景 以 及 优 缺 点 。 


ee 举例 -回归 问题 常用 的 性 能 度量 指标 ( 均 方 误差 ) < 
模型 评估 方法 /准则 四 : 
间 号 
汪 | 加 由 
ao M4EF= 寺 >》 1FGo) 一 3 
150 i= 工 
一 一 | 加 要 索 | 微 信 ShowMeAl 研 究 中心 | 
i / “ 


MAE、MSE、RMSE 均 存在 求 平 均 的 操作 〈 包 括 R 
的 平方 也 可 以 认为 有 此 操作 ， 只 是 因为 分 子 分 母 的 
约 分 导致 求 平均 的 操作 不 明显 ) ， 而 取 均 值 是 为 了 
消除 样本 数量 的 影响 ， 使 得 评估 指标 的 大 小 不 会 太 
依赖 于 样本 数量 ， 而 是 更 多 地 反映 模型 的 误差 。 


校正 之 后 的 决定 系数 在 此 基础 上 消除 了 样本 数量 和 
特征 数量 的 影响 ， 自 变量 越 多 ， 校 正 决 定 系数 就 会 
对 目 变 量 进 行 处 神 ， 所 以 一 般 校 正 决定 系数 小 于 决 
定 系数 ， 忆 能 更 好 地 反映 模型 的 质量 ， 可 以 用 来 选 
择 不 同 特征 数量 的 回归 模型 。 


加 提 的 祯 济 汽 车 事故 的 索赔 阁 忆 
二 人 适用 干 含有 噪声 的 目 
孝 据 入 
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MAPE 所 
平均 绝对 百 分 误 差 


MSE 
太 并 各 适 基干 误差 的 均值 对 进行 


| 
RsE 评估 的 ， 均 值 对 异常 点 。。 用 于 比较 二 人 的 数 。 二 人 园 
均 方 根 误差 (outliers) 较 敏 感 , 如 果 样 据 集 ， 即 噪声 数据 
7 本 中 有 一 些 异 尝 值 出 现 ， 。 少 的 数据 集 
会 对 以 上 指标 的 值 有 较 大 
影响 ， 即 均值 是 非 镶 棒 的 
校正 决定 系数 全 
L 担 过 | 徽 信 ShowMeAl 研究 中 心 | 


6. 分 类 问题 常用 的 评估 指标 


分 类 问题 是 机 器 学 习 领 域 最 常见 的 大 类 问题 ， 有 很 
多 有 信人 到 分 类 问题 的 解决 范畴 。 下 面 我 们 
梳理 一 下 分 类 问题 的 主要 评估 指标 ( Evaluation 
Metrics ) 。 


1 ) 混 清 答 阵 
在 人 工 智 能 中 ， 混 浠 矩阵 ( Confusion Matrix ) 是 
非常 有 效 的 评估 模式 ， 特 别 用 于 监督 学 习 (在 无 监 


督学 习 中 一 般 叫做 匹配 和 矩阵 ) 。 典 型 的 混淆 答 阵 构 
成 如 下 图 所 示 : 


。 每 一 列 代表 了 预测 类 别 ， 每 一 列 的 总 数 表示 预 
测 为 该 类 别 的 数据 的 数目 。 


。 每 一 行 代 表 了 数据 的 真实 归属 类 别 ， 每 一 行 的 
数据 总 数 表示 该 类 别 的 数据 实例 的 数目 。 


Confusion Matrix 


汉人 
Condition Positive 
Actual 
Condition 
ShowMeAI 
混淆 矩阵 Condition Negative 


中 httpWwww.showmeaitechy 


。 True Positive (CTP ) : 真实 值 为 Positive ， 预 
测 值 为 Positive。 


。 False positive (FP ) : 真实 值 为 Negative， 预 
测 值 为 Negative。 


。 False Negative (FN ) : 真实 值 为 Negative ， 
预测 值 为 Positive。 


。 True Negative (CTN ) : 真实 值 为 Positive， 预 
测 值 为 Negative。 


很 多 评估 指标 可 以 基于 混 清 答 阵 计算 得 到 ， 如 下 图 
所 示 : 


模型 评估 方法 /准则 


混淆 矩阵 
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2 ) Accuracy 精确 率 


对 于 分 类 问题 ， 精 确 率 (Accuracy ) 指 分 类 正确 的 
样本 数 占 样本 总 数 的 比例 ， 是 最 常用 的 指标 ， 可 以 
总 体 上 衡量 一 个 预测 的 性 能 。 一 般 情况 〈 数据 类 别 
均衡 ) 下 ， 模 型 的 精度 越 高 ， 说 明 模 型 的 效果 越 
好 。 


Accuracy=TP+TNFP+FN+FP+TN 
Accuracy =\frac{TP+TNIFP+FN+FP+TN]} 
Accuracy=FP+FN+FP+TNTP+TN 


EE 

加 只 有 

Revie 4ccuoracy = (TP+TTN)VCFP+FN+FP+TN) 多 
] 


模型 评估 方法 /准则 0 


但 是 在 数据 类 别 严 重 不 均衡 的 情况 下 ， 这 个 评估 指 
标 并 不 合理 ， 比 如 发 病 率 0.1% 的 医疗 场景 下 ， 如 果 
只 追求 Accuracy， 模 型 可 以 把 所 有 人 判定 为 没有 病 
的 正常 人 ，Accuracy 高 达 99.9%， 但 这 个 模型 实际 
是 不 可 用 的 。 为 了 更 好 地 应 对 上 述 问 题 ， 衍 生出 了 
一 系列 其 他 评估 指标 。 例 如 : 


。 宁愿 漏 掉 ， 不 可 错 杀 : 在 识别 垃圾 邮件 的 场景 
中 可 能 偏向 这 一 种 思路 ， 因 为 不 希望 很 多 的 正 
常 邮件 被 误杀 ， 这 样 会 造成 严重 的 困扰 。 
此 ， 查 准 率 (Precision ) 将 是 一 个 被 侧重 关心 
的 指标 。 


。 于 愿 错 杀 ， 不 可 漏 掉 : 在 金融 风 控 领 域 大 多 偏 
向 这 种 思路 ， 和 希望 系统 能 够 筛选 出 所 有 有 风险 
的 行为 或 用 户 ， 然 后 交 给 人 工 鉴别 ， 漏 掉 一 个 
可 能 造成 灾难 性 后 果 。 因 此 ， 碍 全 率 
(Recall ) 将 是 一 个 被 侧重 关心 的 指标 。 


3 ) Precision 查 准 率 


Precision (得 准 率 ) ， 又 称 正确 率 、 准 确 率 ， 表 示 
在 模型 识别 为 正 类 的 样本 中 ， 真 正 为 正 类 的 样本 所 
占 的 比例 。 一 般 情况 下 ， 查 准 率 越 高 ， 说 明 模 型 的 
效果 越 好 。 


Precision=TPFP+FPPrecision = 
rac{TPJHFP+FP}) Precision=FP+FPTP 


Precision 


模型 评估 方法 /准则 


Precision =TP/CTP+EP) 
查 准 率 / 正确 率 / 准确 率 


FT 


查 准 率 Precision 


2 
| @Q 栅 案 


) 搜索 | 徽 售 ShowMeAl 研 究 中 心 | 
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4 ) Recall 查 全 率 


Recall ( 得 全 率 ) ， 又 称 召 回 率 ， 表 示 的 是 ， 模 型 
正确 识别 出 为 正 类 的 样本 的 数量 占 总 的 正 类 样本 数 
量 的 比值 。 一 般 情 况 下 ，Recall 越 高 ， 说 明 有 更 多 
的 正 类 样本 被 模型 预测 正确 ， 模 型 的 效果 越 好 。 


Recall=TPTP+FNRecall=fracfTPI{TP 
+FN} Recall=TP+FNTP 


过 
一 
Recall Recall = TP/(TP 二 PN) 四 
查 全 率 / 召回 率 | 
模型 评估 方法 /准则 
全 下 冯 

查 全 率 Recall 人 


(L) 袍 索 | 微 信 ShowMeAl 研究 中 心 


5 ) FB-Score 和 F1-Score 


理论 上 来 说 ，Precision 和 Recall 都 是 越 高 越 好 ， 但 


更 多 时 候 它 们 两 个 是 矛盾 的 ， 经 常 无 法 保证 二 者 都 
很 高 。 此 时 ， 引 入 一 个 新 指标 FB -ScoreF 
\beta - Score FB-Score， 用 来 综合 考虑 Precision 
与 Recall。 


FB=(1+B2)x Precision x Recall B2x 
Precision + Recall F_f 人 betal=\left(1+ 
\beta^{2}Nright) times xfracfstext { Precision } times 
vtext{ Recall }}fAbeta^{2} times text { Precision }+ 
vtext { Recall }}》 FB 

=(1+PB2)xp2x Precision + Recall Precision x Recall 


需要 根据 不 同 的 业务 场景 来 调整 B \betaB 值 : 


村 
1 


合租 epwy 


| 〇 视 索 | 微 信 ShowMeAl 研 究 中 心 | 


。B=1lbeta=1pB=1 暑 ，FB-ScoreF 
\beta - Score FB-Score 就 是 F1-ScoreF 
1 - Score F1-Score， 综 合 平等 考虑 Precision 
和 Recall 的 评估 指标 ， 当 F1 值 较 高 时 则 说 明 模 
型 性 能 较 好 。 


F1=2 Precision x Recall Precision + Recall 
F_{1}=\racf{2 \text{ Precision } xtimes \text { Recall 
ftext{f Precision }+xtext{ Recall 人 F1 

= Precision + Recall 2 Precision x Recall 


。B < 1\beta < 1 B<1 时 ， 更 关注 Precision。 


。B>1Nbeta > 1B>1 时 ， 更 关注 Recall。 


6 ) ROC 


除了 前 面 介 绍 的 Accuracy、Precision 与 Recall ,还 
有 一 些 其 他 的 度量 标准 ， 如 使 用 True Positive 
Rate (TPR， 真 正 例 率 ) 和 False Positive 

Rate (FPR， 假 正 例 率 ) 两 个 指标 来 绘制 ROC 曲 
线 。 


Predicted Condition 加 
he g 
o 吕 | 

瑟 ; 

模型 评估 方法 /准则 旧 
TPR 司 

| 

True Positive Rate 儿 


ROC (TPR/ FPR) False Positive Rate 


TN 
rue Negative 
福 索 | 党 化 ShowMeAl 研究 中 心 


候 http:Wwww.showmeaitechy 
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和 豚 wwy 朋 症 e 人 下 


妃 
呈 吕 9 
这 忆 
人 图 1 
二 对 
也 
和 让 
和 
登 证 


ROC (TPR/7 FPR) 
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TPR-TPTP+FNTPR -racITPHTP+FN] 
TPR-=TP+FNTP 


FPR-FPFP+TNFPR -MractfFPJ{FP+TN) 
FPR-FP+TNFP 


算法 对 样本 进行 分 类 时 ， 都 会 有 置信 度 ， 即 表示 该 
样本 是 正 样本 的 概率 。 


比如 ，99%e 的 概率 认为 样本 A 是 正 例 ，1 % 的 
概率 认为 样本 B 是 正 例 。 通 过 选择 合适 的 靖 
值 ， 比 如 50%， 对 样本 进行 划分 ， 概 率 大 于 
50% 的 就 认为 是 正 例 ， 小 于 50% 的 就 是 负 例 。 


通过 置信 和 度 可 以 对 所 有 样本 进行 降序 排序 ， 再 逐个 
样本 地 选择 阀 值 ， 比 如 排 在 某 个 样本 之 前 的 都 属于 
正 例 ， 该 样本 之 后 的 都 属于 负 例 。 每 一 个 样本 作为 
划分 国 值 时 ， 都 可 以 计算 对 应 的 TPR 和 FPR， 那么 
就 可 以 绘制 ROC 曲 线 。 


ROC 曲 线 反映 了 TPR 和 FPR 随 闭 值 的 
变化 情况 
ROC 曲线 越 接近 左上 角 ， 表 示 该 分 类 器 的 性 


和 
| 人 二 之 | 赏 售 ShowMeAl 研 究 中 心 | 


FPR 100% 


中 httpWwww.showmeaitechy 


ROC 曲 线 ( Receiver Operating Characteristic 
Curve ) 全 称 是 ' 受 试 者 工作 特性 曲线 ，。 综 合 
虑 了 概率 预测 排序 的 质量 ， 体 现 了 学 习 器 在 不 同 任 
务 下 的 “期 望 之 化 性 能 , 的 好 坏 ， 反 映 了 TPR 和 
FPR 随 闭 值 的 变化 情 . 


RE 一 抽 胃 
| 点 (0.D ! 点 (LTD 赔 
二 即 FPR=<0, TPR=1 Roomescma ， 即 FPR=TPR=0 四 
意味 着 FN= 0 且 FP=0 本 分 类 器 把 每 个 实例 都 预 可 ; 
模型 评估 方法 /准则 本 本 ， 测 为 负 关 员 
是 可 一 一 
4 | 点 (1.0) 四 
点 (2.0) 即 FPR=1，TPR=0 | 
即 FPR=TPR=0 最 差分 类 器 
ROC 0 本 局“ 一 逐 开 了 所 有 正确 答案 
分 类 器 把 每 个 实例 都 预 - 
测 为 负 类 / 人 搜索 | 微 信 ShowMeAl 研 究 中心 | 
GE httpywwwshowmeaitechy 


ROC 曲 线 越 接近 左上 角 ， 表 示 该 分 类 器 的 性 能 越 
好 。 也 就 是 说 模型 在 保证 能 够 尽 可 能 地 准确 识别 小 
众 样本 的 基础 上 ， 还 保持 一 个 较 低 的 误 判 率 ， 即 不 
会 因为 要 找 出 小 众 样本 而 将 很 多 大 众 样本 给 误 判 。 


一 般 来 说 ， 如 果 ROC 是 光滑 的 ， 那 么 基本 可 以 判断 
没有 太 大 的 overfitting。 


7 ) AUC 


ROC 曲 绪 的 确 能 在 一 定 程度 上 反映 模型 的 性 能 ， 但 
它 并 不 是 那么 方便 ， 因 为 曲线 靠近 左上 方 这 个 说 法 
还 比较 主观 ， 不 够 定量 化 ， 因 此 还 是 需要 一 个 定量 
化 的 标量 指标 来 反映 这 个 事情 。ROC 曲 线 的 AUC 值 
恰好 就 做 到 了 这 一 


模型 评估 方法 /准则 


AUC 值 为 ROC 曲线 所 覆盖 区 域 面积 
AUC 值 越 太 ， 就 能 够 保证 ROC 曲 线 越 
靠近 左上 广 


所 索 | 微 信 ShowMeAl 研究 中 心 


AUC (Area Under ROC Curve ) 是 ROC 曲 线 下 面 
积 ， 其 物理 意义 是 ， 正 样本 的 预测 结果 大 于 负 样 本 
的 预测 结果 的 概率 ， 本 质 是 AUC 反 应 的 是 分 类 器 对 
样本 的 排序 能 


AUC 值 越 大 ， 就 能 够 保证 ROC 曲 线 越 靠近 左 
上 方 。 


8 ) PRC 


与 ROC 曲 线 的 思想 类 似 ， 根 据 Precision 和 Recall ， 


也 提出 了 一 种 Precision-Recall 曲 线 。 


Xtension of Precision-Recall curve to multi-class 关 吕 
所 可 吧 
hs PR 曲线 量 
[一 [ al we 

- 。 模 从 村 是 召回 宗 R 
双 


模型 评估 方法 /准则 间 上 | 2 中 。 纵 坐 标 是 准确 率 P 


可 
每 一 个 样本 作为 划分 逆 值 时 ， 者 凤 
了 可 以 计算 对 应 的 precision 和 

recall， 那 么 就 可 以 绘制 PR 曲线 。 


PRC 


涩 信 ShowMeAl 研究 中 心 ] 


中 http:Wwww.showmeaitechy 


同样 是 通过 置信 度 就 可 以 对 所 有 样本 进行 降序 排 
序 ， 再 逐个 样本 地 选择 阐 值 ， 比 如 排 在 某 个 样本 之 
前 的 都 属于 正 例 ， 该 样本 之 后 的 都 属于 负 例 。 每 一 
个 样本 作为 划分 国 值 时 ， 都 可 以 计算 对 应 的 
Precision 和 Recall ,那么 就 可 以 绘制 PR 曲线 。 


9 ) 小 结 


PE 
CD 7 | 
< 精确 率 | 46cwracy EPENTFBTN TPR = 
二 
查 准 率 Preci 2 FPR 全 
: 二 查 recision = 汪汪 三 
模型 评估 方法 /准则 TPREP PP+m 写 
了 | 
查 ee 昌 
查 全 率 。 | Recol = PTET ROC 厂 
NT Precision x Recail 
站 seo | 5 es 
内 田 指 标 
常用 指标 小 结 
罗 2 mL X Recatl 
1 上。 Precision 十 Recall 了 得 过 | 祖 R ShowMeAl 研 究 中 心 | 
中 httpWwww.showmeaitechy 
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7. 二 分 类 评估 指标 适用 场景 


在 不 同 的 业务 场景 中 ，Precision 和 Recall 的 侧重 不 


一 样 : 


。 对 于 癌症 预测 、 地 震 预 测 这 类 业务 场景 ， 人 们 
更 关注 模型 对 正 类 的 预测 能 力 和 敏感 度 ， 因 此 
模型 要 尽 可 能 提升 Recall ， 甚至 不 惜 降低 
Precision。 


而 对 于 垃 坡 邮件 识别 等 场景 中 ， 人 们 更 难以 接 
受 FP (把 正常 邮件 识别 为 垃圾 邮件 ， 影 响 工 
作 ) ， 因 此 模型 可 以 适度 降低 Recall 以 便 获 得 
更 高 的 Precision。 我 们 可 以 通过 调节 FB - S 
coreFn'beta -Score FB-Score 中 B\betaB 
的 大 小 来 控制 Precision 和 Recall 的 侧重 程度 。 


1 ) 评价 指标 分 析 
对 于 这 些 评价 指标 的 选择 ， 有 如 下 的 一 些 经 验 : 


让 
看 


精确 率 。 适用 干 正 负 样本 数量 相当 的 情况 
Re 四 
查 准 率 。 注重“ 准 ” ; 适用 干 正 负 样本 差 昼 很 大 的 情况 ; 不 能 用 干 抽样 情况 下 的 效果 评估 导 


模型 评估 方法 /准则 


查 全 率 。 注重 “全 ”; 适用 干 正 负 样本 差异 很 大 的 情况 ; 不 受 机 样 影响 
3 
C ”对 不 平衡 数据 集 不 敏感 图 

C 对 排序 敏感 ， 对 预测 分 数 不 敏 感 


C 在 负 样本 数量 远大 于 正 样本 数量 的 数据 集 里 量 分 
人 要 这 | 微 售 ShowMeAl 研 究 中心 | 


。 Accuracy 适 用 于 正 负 样 本 比例 相差 不 大 的 情况 


的 结果 评估 。 


。 Precision 和 Recall 适 用 于 正 负 样 本 差异 很 大 的 
情况 ，Precision 不 能 用 于 抽样 情况 下 的 效果 评 
估 ，Recall 不 受 抽 样 影响 。 


。 负 样本 的 数量 远 远大 于 正 样本 的 数据 集 里 ， 
PRC 更 能 有 效 衡量 分 类 器 的 好 坏 。 


。 AUC 计 算 主 要 与 排序 有 天 ， 所 以 它 对 排序 敏 
感 ， 而 对 预测 分 效 没 那么 敏感 。 


2 ) 垃圾 邮件 识别 


垃 坡 邮 件 鼎 用 网 络 市 宽 、 侵 犯 收 件 人 的 隐私 权 、 骗 
人 钱财 等 ， 已 经 对 现实 社会 造成 了 危害 。 一 般 来 

说 ， 凡 是 未 经 用 户 许可 就 强行 发 送 到 用 户 的 邮箱 中 
的 任何 电子 邮件 都 可 称 作 是 垃 直 邮件 ， 这 是 一 个 典 


型 的 二 分 类 问题 。 


把 垃圾 文件 识别 为 正音 文件 ; 和 “把 正常 文件 识 
别 为 垃圾 文件 , ， 二 者 相 比 ，、 我 们 显然 更 能 容忍 
前 者 ， 因 此 模型 可 以 适度 降低 Recall 以 便 获 得 更 高 


的 Precision。 


3 ) 金融 风 控 


再 来 看 个 金融 风 控 的 例子 ， 首 先 需 要 明确 一 点 ， 正 
党 客户 的 数量 一 般 来 说 是 远 远大 于 风险 客户 的 ， 这 
是 个 样本 不 均衡 问题 。 互 联网 金融 公司 风 控 部 门 的 
主要 工作 是 利用 机 器 模型 抓 取 坏 客户 。 


根据 前 面 对 Precision、Recall 以 及 PR 曲线 的 介绍 ， 
知道 ，Precision 和 Recall 往 往 都 是 相互 奉 制 的 ， 很 
难 同时 达到 一 个 很 高 的 水 平 。 所 以 在 这 个 案例 中 ， 
同样 需要 根据 业务 场景 来 衡量 这 两 个 指标 的 重要 
性 。 


。 互联 网 金融 公司 要 扩大 业务 量 ， 尽 量 多 的 吸引 
好 客户 ， 此 时 风 控 部 门 就 会 提高 冰 值 ， 从 而 提 
高 模型 的 查 准 率 Precision， 同 时 ， 也 会 放 进 一 
部 分 坏 客户 ， 导 致 查 全 率 Recall 下 降 。 


。 如果 公司 坏账 扩大 ， 公 司 缩 紧 业务 ， 尽 可 能 抓 
住 更 多 的 坏 客户 ， 此 时 风 控 部 门 需要 不 惜 一 切 
代价 降低 损失 ， 守 住 风 险 底线 ， 因 此 会 降低 阅 
值 ， 从 而 提高 模型 的 查 全 率 Recall， 但 是 这 样 
会 导致 一 部 分 好 客户 误 抓 ,从 而 降低 模型 的 查 
准 率 Precision。 


可 以 通过 调节 FB-ScoreF'beta -Score FB 
-Score 中 B \beta B 的 大 小 来 控制 Precision 和 
Recall 的 侧重 程度 。 B < 1 \beta < 1 B<1， 重 视 查 准 
率 ; B>1beta > 1B>1+, 重视 查 全 率 。 


8. 翌 本 均衡 与 采样 


首先 看 看 什么 是 分 类 任务 中 的 样本 不 均衡 问题 ， 以 
及 如 何 解 决 样本 不 均衡 问题 。 


1 ) 样本 均衡 问题 


在 学 术 研 究 与 教学 中 ， 很 多 算法 都 有 一 个 基本 假 
设 ， 那 融 是 数据 分 布 是 均匀 的 。 当 把 这 些 算法 直接 
应 用 于 实际 数据 时 ， 大 多 数 情况 下 都 无 法 取得 理想 
的 结果 ， 因 为 实际 数据 往往 分 布 得 很 不 均 习 ， 都 会 
存在 “长 尾 现象 , 。 


| 多 数 样本 : 样本 信息 量 大 字 


模型 评估 方法 /准则 


模型 容易 判别 这 一 类 。 到 


划 
克 

少数 样本 : 样本 信息 量 少 ， 

模型 难 判别 这 一 类 


生 壳 | 微 信 ShowMeA1 研 究 中 心 | 


。 多数 样本 数量 多 ， 信 息 量 大 ， 容 易 被 模型 充分 


。 少数 样本 数量 少 ， 信 息 量 少 ， 模 型 没有 充分 学 


习 到 它们 的 特征 ， 很 难 识别 这 类 样本 


解决 这 一 问题 的 基本 思路 是 ， 让 正 负 样 本 在 训练 过 
程 中 拥有 相同 的 话语 权 (比如 利用 采样 与 加 权 等 方 
法 ) 。 样 本 类 别 不 均衡 的 情况 下 ， 最 常见 的 处 理 方 
式 是 “数据 采样 , 与 样本 加 权 ，， 详 细 介 绍 如 
下 


2 ) 效 据 采 样 


欠 采 样 /下 采样 过 采样 /上 采样 己 
Er Under-sampling 0 Over-sampling 名 
合理 地 出 | 减 多 数 类 样本 TAN 介 合理 增加 少数 类 的 样本 了 
模型 评估 方法 /准则 EasyEnsem ble 算 法 ee SMOTE 算 法 后 
Under-sampling W 和 AN Dver-sampling 史 

-| 使 得 两 类 数据 量 级 

让 | 
| 全 守 全 全 区 3 | | 计 行 学 寻 、 
_ DSS 全 全 hewMteni 研 究 中 心 


(1) 欠 采 样 /下 采样 
欠 采 样 技术 是 将 数据 从 原始 数据 集中 移 除 。 


。 将 这 些 样 本 从 多 数 类 集合 中 移 除 。 


(2 ) 过 采样 / 上 采样 


随机 过 采样 : 


。 然后 通过 复制 所 选 样本 生成 样本 集合 E。 


。 将 它们 添加 到 少数 类 集 
集 


合 中 来 扩大 原始 数据 集 
从 而 得 到 新 的 少数 类 集合 


我 们 也 有 一 些 少 类 别 样本 合成 技术 方法 ， 比 如 机 器 
学 习 中 有 SMOTE 算 法 通过 合成 新 样本 完成 过 采样 ， 
缓解 样本 类 别 不 均衡 问题 。 


(3 ) 不 同 采样 方法 的 比较 


下 采样 的 缺点 显而易见 ， 那 融 是 最 终 的 训练 集 丢 失 
了 数据 ， 模 型 只 学 到 了 总 体 模式 的 一 部 分 。 而 
SMOTE 算 法 为 每 个 小 众 样本 合成 相同 数量 的 新 样 
本 ， 但 这 也 带 来 一 些 潜在 的 门 题 : 


。 一 方面 是 增加 了 类 之 间 重 寺 的 可 能 性 ， 即 通过 
算法 生成 的 小 众 样本 并 不 一 定 是 合理 的 小 众 样 
本 。 


。 另 一 方面 是 生成 一 些 没 有 提供 有 益 信 息 的 样 
本 。 


3 ) 加 权 


除了 上 采样 和 下 采样 这 种 采样 方式 以 外 ， 还 可 以 通 
过 加 权 的 方式 来 解决 数据 不 均衡 问题 ， 
别 分 销 的 代价 不 同 ， 对 于 小 众 样本 ， 如 果 分 销 了 
造成 更 大 的 损失 。 这 种 方法 的 难点 在 于 设置 合理 的 
权重 ， 实 际 应 用 中 一 般 让 各 个 分 类 间 的 加 权 损 失 值 
近似 相等 。 当 然 这 并 不 是 通用 法 则 ， 还 是 需要 具体 
问题 具体 分 析 。 
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学 习 - 吴 恩 达 主 讲 (2018. 完 整 版 ) 
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K 近 邻 算 法 〈k-nearest neighbors，KNN ， 有 些 地 
方 也 译作 5K 近 邻 算 法 ， ) 是 一 种 很 基本 朴实 的 机 
器 学 习 方 法 。 


KNN 在 我 们 日 常生 活 中 也 有 类 似 的 思想 应 用 ， 比 
如 ， 我 们 判断 一 个 人 的 人 品 ， 往 往 只 需要 观察 他 最 
密切 的 几 个 人 的 人 品 好 坏 就 能 得 到 结果 了 。 这 融 是 
KNN 的 思想 应 用 ，KNN 方 法 既 可 以 做 分 类 ， 也 可 以 
做 回归 。 在 本 篇 内 容 中 ， 我 们 来 给 大 家 展开 讲解 
KNN 相 关 的 知识 原理 。 


(本 篇 KNN 部 分 内 容 涉 及 到 机 器 学 习 基 础 知识 ， 没 
有 先 序 知识 储备 的 宝宝 可 以 查看 ShowMeAI 的 文章 
图 解 机 器 学 习 | 机 器 学 习 基 础 知识 。 


1. 机 器 学 习 与 分 类 问题 


1 ) 分 类 问题 


分 类 问题 是 机 器 学 习 非 常 重 要 的 一 个 组 成 部 分 ， 它 
的 目标 是 根据 已 知 样本 的 某 些 特征 ， 判 断 一 个 样本 
属于 哪个 类 别 。 分 类 问题 可 以 细 分 如 下 : 


。 二 分 类 问题 : 表示 分 类 任务 中 有 两 个 类 别 新 的 


样本 属于 哪 种 已 知 的 样本 类 。 


。 多 类 分 类 (Multiclass classification ) 问题 : 表 
示 分 类 任务 中 有 多 类 别 。 


多 标签 分 类 (Multilabel classification ) 问题 : 
人 


给 每 个 样本 一 系列 的 目标 标签 。 


分 类 预测 | 监督 学 习 : 相 
监督 学 习 分 有 浅 柜 有 标签 的 学 习 方式 | 


KNN 算 法 及 其 应 用 | 洒 二 邑 天 
机 器 学 习 无 监督 学 习 有 数据 无 标 签 的 学 习 方式 
算法 介 类 ae 


2 。 
Q-leaning 
有 延迟 和 稀 朴 的 反馈 标签 的 学 习 方式 


时 间 差 学 习 。 全 人 委 款 | 这 全 ShowMeAl 研 究 中 心 


2 ) 分 类 问题 的 数学 抽象 


从 算法 的 角度 解决 一 个 分 类 问题 ， 我 们 的 训练 数据 
会 被 映射 成 n 维 空间 的 样本 点 (这 里 的 n 就 是 特征 维 
度 ) ， 我 们 需要 做 的 事情 是 对 n 维 样本 空间 的 点 进 


行 类 别 区 分 ， 肝 些 点 会 归属 到 某 个 类 别 。 


下 图 所 示 的 是 二 维 平面 中 的 两 类 样本 点 ， 我 们 的 模 
型 (分 类 器 ) 在 学 习 一 种 区 分 不 同类 别 的 方法 ， 比 
如 这 里 是 使 用 一 条 直线 去 对 2 类 不 同 的 样本 点 进行 切 


人 
丰 。 


PE 
分 类 问题 (监督 学 习 ) 杰 
根据 数据 样本 上 机 取出 的 特征 ， 判 定 其 属 干 有 限 个 类 别 中 的 哪 一 个 弹 


KNN 算 法 及 其 应 用 分 类 预测 个 应 用 场景 类 型 | 结果 类 中 | 
监督 尝 习 呈 中 e | 
四 昌 分 析 十 Ye 垃 有 妆 人 识别 二 分 类 过 吉 邮件 
二 生 十 /@ 
元 监督 半 习 | 一 二 二 A[e 。 @ ENSRi 人 
降 维 
民 由 四 人 @ 文本 情 压 分 析 。 一 分 类 。。 村/ 葡 
分 类 问题 的 数学 机 旬 5 aa 
强化 学 习 上 
间 些 学 | 析 索 | 微 信 ShowMeAl 研究 中 心 | 


中 httpWwww.showmeaitechy 


常见 的 分 类 问题 应 用 场景 很 多 ， 我 们 选择 几 个 进行 
举例 说 明 : 


。 垃圾 邮件 识别 : 可 以 作为 二 分 类 问题 ， 将 邮件 
分 为 你 "垃圾 邮件 , 或 者 “正音 邮 件 , 。 


。 图 像 内 容 识别 : 因为 图 像 的 内 容 种 类 不 止 一 
个 ,图像 内 容 可 能 是 猫 、 狗 、 人 等 等 ， 因 此 是 
多 类 分 类 问题 。 

。 文 本 情感 分 析 : 既 可 以 作为 二 分 类 问题 ， 将 情 
感 分 为 说 凤 两 种 ， 还 可 以 作为 多 类 分 类 问题 ， 
将 情感 种 类 扩展 ， 比 如 分 为 : 十 分 消极 、 消 
杖 、 积 极 、 十 分 积极 等 。 


2.K 和 近邻 算法 核心 思想 


在 模式 识别 领域 中 ，K 近 邻 算法 (KNN 算 法 ， 又 译 
K- 最 近邻 算法 ) 是 一 种 用 于 分 类 和 回归 的 非 参数 统 


计 方 法 。 在 这 两 种 情况 下 ， 输 入 包含 特征 空间 中 的 
K 个 最 接近 的 训练 样本 。 


1 ) K 近 邻 核 心思 想 


在 KNN 分 类 中 ， 输 出 是 一 个 分 类 族群 。 一 个 对 象 的 
分 类 是 由 其 邻居 的 多数 表 决 : 确定 的 ，K 个 最 近 
邻居 〈K 为 正 整 数 ， 通 常 较 小 ) 中 最 常见 的 分 类 决 
定 了 赋予 该 对 象 的 类 别 。 


。 若 K=1， 则 该 对 象 的 类 别 直 接 由 最 近 的 一 个 节 
氮 岂 予 。 


在 KNN 回 归 中 ， 输 出 是 该 对 象 的 属性 值 。 该 值 
是 其 K 个 最 近邻 居 的 值 的 平均 值 。 


em 
KNN 分 类 : 一 个 对 象 的 介 类 是 由 其 邻居 的 “多 数 表决 "确定 的 加 
K 个 最 近邻 居中 最 常见 的 分 类 决定 了 蒜 巴 污 对 旬 的 类 别 本 
KNN 算 法 及 其 应 用 维 ) 昌 
| 四“ 古 六 | 
一 人 以 群 分 SS 
这 包 RAR 
内 MY 夸 宫 十 和 | 和 @ 
近 朱 者 赤 疙 0 
k=3 由 
《sy》 <。 jx 时 和 
ShowMeAi 研究 中 心 


K 近 邻居 法 采用 向 量 空 间 模型 来 分 类 ， 概 念 为 相同 
类 别 的 案例 ， 彼 此 的 相似 度 高 。 而 可 以 借 由 计算 与 
已 知 类 别 案例 之 相似 度 ， 来 评估 未 知 类 别 案例 可 能 


的 分 类 。 


KNN 是 一 种 基于 实例 的 学 习 ， 或 者 是 局 部 近似 和 将 
所 有 计算 推迟 到 分 类 之 后 的 惰性 学 习 。K- 近 邻 算法 
是 所 有 的 机 器 学 习 算 法 中 最 简单 的 之 一 。 


2 ) 豆子 分 拓 例子 


想 一 想 : 下 图 中 只 有 三 种 豆 ， 有 三 个 豆 的 种 类 未 
知 ， 如 何 判定 他 们 的 种 类 ? 


KNN 算 法 及 其 应 用 


豆子 分 类 例子 


中 http:Wwww.showmeaitechy 


1968 年 ，Cover 和 Hart 提 出 了 最 初 的 近邻 法 ， 思 路 
是 一 一 未 知 的 豆 离 哪 种 豆 最 返 ， 就 认为 未 知 豆 和 该 


豆 是 同一 种 类 。 


| 
1968 年 ，Cover 和 Hart 提 出 了 最 初 的 近邻 法 到 
思路 : 未 知 的 豆 高 哪 种 豆 最 近 ， 就 认为 未 知 豆 和 该 豆 是 同一 种 类 。 忆 
KNN 算 法 及 其 应 用 
争 虽 
和 @ 4- 全 畏 
多 蕊 
和 @ 最 近邻 算法 1@ 
aaeadiaaaaa 名， 
豆子 分 类 例子 Se @ S 6 
多 | (要 案 + 名 信 晤 wweal 醋 究 h 心 
中 httpwww.showmeaitechy 


由 此 ， 引 出 最 近邻 算法 的 定义 : 为 了 判定 未 知 样本 
的 类 别 ， 以 全 部 训练 样本 作为 代表 点 计算 未 知 样本 
与 所 有 训练 样本 的 距离 ， 并 以 最 近邻 者 的 类 别 作为 
决策 未 知 样本 类 别 的 唯一 依据 。 


最 近邻 算法 的 缺陷 是 对 噪声 数据 过 于 敏感 。 从 图 中 


可 以 得 到 ， 一 个 圈 起 来 的 蓝 点 和 两 个 圈 起 来 的 红 点 
到 绿 点 的 距离 是 相等 的 ， 根 据 最 近邻 算法 ， 该 点 的 


形状 无 法 判断 。 


为 了 解 岂 这 个 问题 ， 我 们 可 以 把 位 置 样本 周边 的 多 
个 最 近 样 本 计算 在 内 ， 扩 大 参与 决策 的 样本 量 ， 以 
避免 个 别 数 据 直接 决定 决策 结果 。 


最 近邻 算法 明显 是 存在 缺陷 的 一 一 对 噪声 数据 过 干 敏感 国 
问题 : 有 一 个 未 知 形状 ， 如 何 判断 其 是 什么 形状 ? 局 
KNN 算 法 及 其 应 用 
杷 位 置 样本 周边 的 多 的 
入 外 2 
时 售 败 个 最 近 样本 计算 在 内 “| 你 多 败 砚 

的 有 急 || 扩大 参与 决策 的 样本 图 而 多 

4\、@ee 量 ， 以 如 免 个 有 人 \@es 

， 直 校 决定 决策 结果 。 

一 人 e 二 | 党 全 号 wwen 研 究 h 心 | 


引进 K- 近 邻 算法 一 一 选择 未 知 样本 一 定 范 围 内 确定 
个 数 的 K 个 样本 ， 该 K 个 样本 大 多 数 属于 某 一 类 型 ， 
则 未 知 样 本 判定 为 该 类 型 。K- 近 邻 算法 是 最 近邻 算 
法 的 一 个 延伸 。 


根据 K 近 邻 算 法 ， 离 绿 点 最 近 的 三 个 点 中 有 两 
个 是 红 点 ， 一 个 是 蓝 点 ， 红 点 的 样本 数量 多 于 
蓝 点 的 样本 数量 ， 因 此 绿 点 的 类 别 被 判定 为 红 
点 


AD 


3-K 近 邻 算法 步骤 与 示例 


下 面 的 内 容 首先 为 大 家 梳理 下 K 近 邻 算法 的 步骤 ， 
之 后 通过 示例 为 大 家 展示 K 近 邻 算 法 的 计算 流程 。 


初 化 中 离 计算 未 知 样本 和 每 个 。 得 到 目前 K 个 最 临近 桩 本 。 如 果 dist < maxdisty 风 将 谈 

KNN 算 法 及 其 应 用 国人 
上 

冯 


重复 步 屯 2、3、4 直 到 未 知 样本 和 所 。 统计 K 个 最 近邻 样 本 中 。 选择 出 现 频率 最 大 的 类 别 作 
有 训练 样本 的 距离 都 算 完 每 个 类 别 出 现 的 次 数 为 未 知 样本 的 类 别 
| 相间 | 微 信 ShowMeAl 研 究 中心 | 


1 ) K 近 邻 算法 工作 原理 


。 存在 一 个 样本 数据 集合 ， 也 称 作 训练 样本 集 ， 
并 且 样 本 集中 每 个 数据 都 存在 标签 ， 即 我 们 知 
道 样本 集中 每 个 数据 与 所 属 分 类 的 对 应 天 系 。 


。 输 入 没有 标签 的 新 数据 后 ， 将 新 数据 的 每 个 特 
征 与 样本 集中 数据 对 应 的 特征 进行 比较 ， 然 后 


算法 提取 样本 集中 特征 最 相似 数据 (最 近邻 ) 


的 分 类 标签 。 


。 一 般 来 说 ， 只 选择 样本 数据 集中 前 N 个 最 相似 
的 数据 。K 一 般 不 大 于 20， 最 后 ， 选 择 K 个 中 
出 现 次 数 最 多 的 分 类 ， 作 为 新 数据 的 分 类 。 


2 ) K 近 邻 算法 参数 选择 


。 如何 选择 一 个 最 佳 的 K 值 取决 于 数据 。 一 般 情 
况 下 ， 在 分 类 时 较 大 的 K 值 能 够 减 小 噪声 的 影 
响 ， 但 会 使 类 别 之 间 的 界限 变 得 模糊 。 一 个 较 
好 的 K 值 能 通过 各 种 局 发 式 技 术 〈 见 超 参数 优 
化 ) 来 获取 。 


。 噪声 和 非 相 关 性 特征 的 和 存在， 或 特征 太 度 与 它 
们 的 重要 性 不 一 致 会 使 4 近邻 算 法 的 付 确 性 严 
重 降 低 。 对 于 选取 和 缩放 特征 来 改善 分 类 已 经 
做 了 很 多 研究 。 一 个 普遍 的 做 法 是 利用 进化 算 
法 优化 功能 扩展 ， 还 有 一 种 较 普 坎 的 方法 是 利 
用 训练 样本 的 互信 息 进 行 选择 特征 。 


。 在 二 元 (两 类 ) 分 类 问题 中 ， 选 取 K 为 奇数 有 
助 于 避免 两 个 分 类 平 票 的 情形 。 在 此 问题 下 ， 


选取 最 佳 经 验 K 值 的 方法 是 目 助 法 。 


说 明 : KNN 没 有 显示 的 训练 过 程 ， 它 是 “懒惰 
学 习 1 的 代表 ， 它 在 训练 阶段 只 是 把 数据 保存 
下 来 ， 训 练 时 间 开 销 为 0， 等 收 到 测试 样本 后 

过 处 。 


3 ) K 近 邻 算 法 示例 
举例 : 以 电影 分 类 作为 例子 ， 电 影 题材 可 分 为 爱情 
片 ， 动 作 片 等 。 那 么 爱情 片 有 哪些 特征 ? 动作 片 有 


哪些 特征 呢 ? 也 就 是 说 给 定 一 部 电影 ， 怎 么 进 分 
类 ? 


这 假定 将 电影 分 为 爱情 片 和 动作 片 两 类 ， 如 果 一 部 


电影 中 接吻 镜头 很 多 ， 打 斗 镜头 较 少 ， 显 然 是 属于 
爱情 片 ， 反 之 为 动作 片 。 


Kevin Longblade 101 10 Action 可 
Robo Slayer 3000 了 
Ampedil Action 
算法 示例 -电影 分 类 未 知 18 90 Unknown 
最 后 一 行 未 知 电影 属于 什么 类 型 ? | | 入 过 | 党 售 ShowMeal 研 究 中 心 
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有 人 曾 根据 电影 中 打斗 动作 和 接吻 动作 数 进 评估 ， 


效 据 如 图 。 给 定 一 部 电影 数据 ( 18,90 ) 打斗 镜头 
18 个 ， 接 吻 镜 头 90 个 ， 如 何 知 道 它 是 么 类 型 的 呢 ? 


现在 我 们 按照 距离 的 递增 顺序 排序 ， 可 以 找到 k 个 距 
离 最 近 的 电影 。 


| 
了 0 末 
贸 
2. 100 邱 
KNN 算 法 及 其 应 用 过 
思 
算法 示例 -电影 分 类 TO 
100 120 打斗 次 数 
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假如 K=3， 那 么 来 看 排序 的 前 3 个 电影 的 类 别 ， 都 是 
爱情 片 ， 根 据 KNN 的 投票 机 制 ， 我 们 判定 这 部 电影 
属于 爱情 片 。 ( 这 里 的 K 是 超 参 数 ， 可 以 调整 ， 如 
果 取 K=4， 那 可 能 投票 的 4 部 电影 分 别 是 爱情 片 、 
爱情 片 、 爱 情 片 、 动 作 片 ， 但 本 例 中 判定 结果 依旧 
为 爱情 卢 ) 


4.K 近 邻 算法 的 缺点 与 改进 


1 ) K 近 邻 算法 的 优 缺 点 
不 同类 别 的 样本 点 ， 分 布 在 空间 的 不 同 区 域 。K 近 


邻 是 基于 空间 距离 较 近 的 样本 类 别 来 进行 分 类 ， 本 
质 上 是 对 于 特征 空间 的 划分 


不 同类 别 的 样本 点 ， 分 布 在 空间 的 不 同 区 域 
K 最 近邻 本 质 上 是 对 干 特征 空间 的 划分 


KNN 算 法 及 其 应 用 


tauta RR-ee00x - 邱 信 点: 精 朗 高 、 对 异常 值 不 敏感 .无 忆 
本 上 | 
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“| 缺点 : 计算 复杂 度 高 、 空 间 复杂 度 


全 运用 数据 范 园 : 数值 型 和 标 称 型 
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。 优点 : 精度 高 、 对 异 弟 值 不 敏感 、 无 数据 输入 
假定 。 


。 缺点 : 计算 复杂 度 高 、 空 辣 复杂 上 度 高 。 


。 天 用 数据 范围 : 数值 型 和 标 称 型 。 


2 )K 近 邻 算 法 的 核心 要 素 : 距离 度量 
则 


近邻 算法 能 用 一 种 有 效 的 方式 隐 含 的 计算 决策 边 
界 。 另 外 ， 尼 也 可 以 显 了 式 的 计算 决策 边界 ， 以 及 有 
效率 的 这 样 做 计算 ， 使 得 计算 复杂 度 是 边界 复杂 上 度 
的 函数 。K 近 邻 算 法 依赖 于 空间 中 相近 的 点 做 类 别 
判断 ， 判 断 距 离 远近 的 度量 标准 非常 重要 。 


距离 的 度量 标准 ， 对 很 多 算法 来 说 都 是 核心 要 素 
(比如 无 监督 学 习 的 聚 类 算法 也 很 大 程度 依赖 距离 
度量 ) ， 也 对 其 结果 有 很 大 的 影响 。 


导 芯 
Lp 距离 忆 (x) = 区 中 加 
KNN 算 法 及 其 应 用 2 2 | 显 哈 顿 距离 二 (zx 坟 ) = 2 外 xD 由 
E 局 
p=1 人 器 克 
」 ”欧式 距离 伯 _xO 
2 
核心 要 素 - 距 离 度量 准则 因 
| 切 此 要 天 距离 1- maxtlav -ai 
Chttpywwwshowmeaitech/ 了 禄 索 | 谷 信 ShowwMeAl 研 究 中 心 | 


Lp 距离 (又 称 岗 可 夫 斯 基 距 离 ，Minkowski 
Distance ) 不 是 一 种 距离 ， 而 是 一 组 距离 的 定义 。 


。 参数 p=1 时 为 曼哈顿 跑 离 (又 称 L1 距 离 或 程式 
区 块 跑 离 ) ， 表 示 两 个 点 在 标 付 坐标 系 上 的 绝 
对 轴 距 之 和 。 


参数 p=2 时 为 欢 氏 距离 ( 又 称 L2 距 离 或 欧 几 里 
得 度量 ) ， 是 直线 距离 常见 的 两 点 之 间或 多 点 
之 间 的 距离 表示 法 。 


参数 p 一 时， 就 是 切 比 雪夫 距离 ( 各 坐标 数值 
差 的 最 大 值 ) 。 


3 ) K 近 邻 算 法 的 核心 有 要素 : K 的 大 小 


对 于 KNN 算 法 而 言 ，,K 的 大 小 取 值 也 至 天 重要 ， 如 
果 选 择 较 小 的 K 值 ， 意 味 着 整体 模型 变 得 复杂 ( 模 
型 容易 发 生 过 拟 合 ) ， 模 型 学 习 的 近似 误差 
Capproximation error ) 会 减 小 ， 但 估计 误差 
(estimation error ) 会 增 大 。 


如 果 选 择 较 大 的 K 值 ， 就 意味 着 整体 的 模型 变 得 简 
单 ， 城 少 学 习 的 估计 误差 ， 但 缺点 是 学 习 的 近似 误 
差 会 增 大 。 


在 实际 的 应 用 中 ， 一 般 采 用 一 个 比较 小 的 K 
值 。 并 采用 交叉 验证 的 方法 ， 选 取 一 个 最 优 的 
K 值 。 


4 )K 近 邻 算 法 的 缺点 与 改进 


(1 ) 缺点 


观察 下 面 的 例子 ， 我 们 看 到 ， 对 于 样本 X， 通 过 
KNN 算 法 ， 我 们 显然 可 以 得 到 X 应 属于 红色 类 别 。 
但 对 于 样本 Y，KNN 算 法 判定 的 结果 是 Y 应 属于 蓝 色 
类 别 ， 然 而 从 距离 上 看 Y 和 红色 的 批 次 样本 点 更 接 
近 。 因 此 ， 原 始 的 KNN 算 法 只 考虑 近邻 不 同类 别 的 
样本 数量 ， 而 忽略 掉 了 距离 。 


全 加 
吧 
氏 
| 


四 | 
原始 的 KNN 算 法 只 考虑 近 邻 不 同类 别 的 样本 数量 ， 却 忽略 樟 了 臣 离 。 
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样本 Y: KNN 算 法 判定 的 结果 是 Y 应 属 干 蓝 色 类 别 。 3 
然而 从 距离 上 看 Y 和 红色 的 批 次 样本 点 更 接近 。 。 - 乙 


缺点 样本 X: KNN 算 法 判定 的 结果 是 X 应 属 干 红色 类 别 。 
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除了 上 述 缺 点 ，KNN 还 存在 如 下 缺点 : 


。 样本 库容 量 依赖 性 较 强 对 KNN 算 法 在 实际 应 用 
中 的 限制 较 大 : 有 不 少 类 别 无 法 提供 足够 的 训 
练 样本 ， 使 得 KNN 算 法 所 需要 的 相对 均匀 的 特 
征 空 间 条 件 无 法 得 到 满足 ， 使 得 识别 的 误差 较 
2 


。K 值 的 确定 : KNN 算 法 必须 指定 K 值 ，K 值 选择 
不 当 则 分 类 精度 不 能 保证 。 


(2 ) 改进 方法 


ia 到 

洽 : 负 点 : 原始 的 KNN 算 法 只 考虑 近邻 不 同类 别 的 样本 数量 ， 而 忽略 挤 了 距离 嚼 
2 到 
注 :。 负 点 : 样本 库容 量 依赖 性 软 强 对 KNN 算 法 在 实际 应 用 中 的 限制 较 大 - 

KNN 算 法 及 其 应 用 省 缺点: k 信 的 确定 .6NN 算 法 必须 指定 K 值 ，K 值 选 笃 不 当 风 分 类 精度 不 能 保证 入 
5 

加 

本 


到 雪 改进 : in 快 KNN 算 法 的 分 类 速度 。 


缺点 与 改进 方法 地 改造: N 剑 样本 库 的 维护 。 
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加 快 KNN 算 法 的 分 类 速度 。 


。 浓缩 训练 样本 当 训 练 样本 集中 样本 数量 较 大 
时 ， 为 了 碱 小 计算 开销 ， 可 以 对 训练 样本 集 进 
行 编 辑 处 理 ， 即 从 原始 训练 样本 集中 选择 最 优 
的 参考 子 集 进行 K 近 邻 寻 找 ， 从 而 威 少 训练 样 
本 的 存储 量 和 提高 计算 效率 。 


。 加快 K 个 最 近邻 的 搜索 速度 这 类 方法 是 通过 快 
速 搜索 算法 ， 在 较 短 时 间 内 找到 待 分 类 样本 的 


K 个 最 近邻 。 
对 训练 样本 库 的 维护 。 


。 对 训练 样本 库 进 行 维护 以 满足 CNN 算 法 的 需 
要 ,包括 对 训练 样本 库 中 的 样本 进行 添加 或 删 
除 ， 采 用 适当 的 办 法 来 保证 空间 的 大 小 ， 如 符 
合 某 种 条 件 的 样本 可 以 加 入 数据 库 中 ， 同 时 可 
以 对 数据 库 库 中 已 有 符合 某 种 条 件 的 样本 进行 
删除 。 从 而 保证 训练 样本 库 中 的 样本 提供 KNN 
算法 所 需要 的 相对 均匀 的 特征 空间 。 


5. 条 例 介绍 


假如 一 套房 子 打算 出 租 ， 但 不 知道 市 场 价 格 ， 可 以 
根据 房子 的 规格 〈 面积 、 房 间 数量 、 厕 所 数量 、 容 


纳 人 数 等 ) ， 在 已 有 数据 集中 得 找 相似 (KK 近邻 ) 
规格 的 房子 价格 ， 看 别人 的 相同 或 相似 户型 租 了 多 
少 读 。 


KNN 算 法 及 其 应 用 


分 类 过 程 : 已 知 的 数据 集中 ， 每 个 已 出 租 住房 都 有 
房间 数量 、 厕 所 数量、 容纳 人 数 等 子 段 ， 并 有 对 应 
出 租价 格 。 将 预计 出 租房 子 数据 与 数据 集中 每 条 记 
录 比 较 计 算 欧 式 跑 离 ， 取 出 距离 最 小 的 5 条 记录 ， 将 
其 价格 取 平 均值 ， 可 以 将 其 看 做 预计 出 租房 子 的 市 
场 平 均 价格 。 


A_a 
) 王 怕 : 
VAN 。 


最 好 不 要 将 所 有 数据 全 部 拿 来 测试 ， 需 要 分 出 
训练 集 和 测试 集 , 具 体 划 分 比例 按 数据 集 确 定 。 


理想 情况 下 ， 数 据 集中 每 个 子 段 取 值 范围 都 相 
同 。 但 实际 上 这 是 几乎 不 可 能 的 ， 如 果 计 算 时 
直接 用 原 数 数据 计算 ， 则 会 造成 较 大 训练 误 


差 。 所 以 需要 对 各 列 数据 进行 标准 化 或 归 一 化 
操作 ， 尽 量 碱 少 不 必 要 的 训练 误差 。 


。 数据 集中 非 数值 类 型 的 字段 需要 转换 ， 蔡 换 掉 
美元 $ 符 号 和 于 分 位 逗号 。 
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本 篇 内 容 我 们 给 大 家 介绍 机 器 学 习 领 域 最 常见 的 模 
型 之 一 : 逻辑 回归 。 它 也 是 目前 工业 界 解 决 问题 最 
广 沁 作 为 baseline 的 解决 方案 。 远 辑 回归 之 所 以 被 
三 沁 应 用 ， 因 为 其 简单 有 效 且 可 解释 性 强 。 


本 文 的 结构 如 下 : 


。 第 1 部 分 : 回顾 机 器 学 习 与 分 类 问题 。 回 顾 机 
器 学 习 中 最 重要 的 问题 之 一 分 类 问题 ， 不 同 的 
分 类 问题 及 数学 抽象 。 


。 第 2 部 分 : 逻辑 回归 核心 思想 。 介 绍 线性 回归 
问题 及 逻辑 回归 解决 方式 ， 讲 解 逻 辑 回归 核心 


田林 目 


VENoO 


。 第 3 部 分 : Sigmoid 函 数 与 分 类 器 决策 边界 。 
介绍 逻辑 回归 模型 中 最 重要 的 Sigmoid 变 换 函 
数 ， 以 及 不 同 分 类 器 得 到 的 决策 边界 。 

。 第 4 部 分 : 模型 优化 使 用 的 梯度 下 降 算 法 。 介 
绍 模型 参数 学 习 过 程 中 最 常 使 用 到 的 优化 算 
法 : 梯度 下 降 。 


。 第 5 部 分 : 模型 过 拟 合 问题 与 正则 化 。 介 绍 模 
型 状态 分 析 及 过 拟 合 问题 ， 以 及 缓解 过 拟 合 问 


题 可 以 使 用 的 正则 化 手段 。 


。 第 6 部 分 : 特征 变换 与 非 线 性 切 分 。 介 绍 由 线 
性 分 类 器 到 非 线性 分 类 场景 ， 对 特征 可 以 进行 
的 变换 如 构建 多 项 式 特 征 ， 使 得 分 类 器 得 到 分 
线性 切 分 能 力 。 


过 


(本 篇 逻辑 回归 算法 的 部 分 内 容 涉及 到 机 器 学 习 基 
础 知识 ， 没 有 先 序 知 识 储备 的 宝宝 可 以 查看 
ShowMeAI 的 文章 图 解 机 器 学 习 | 机 器 学 习 基 础 知 


识 ) 。 
1. 机 器 学 习 与 分 类 问题 


1 ) 分 类 问题 
分 类 问题 是 机 器 学 习 非 常 重要 的 一 个 组 成 部 分 ， 它 
的 目标 是 根据 已 知 样本 的 某 些 特征 ， 判 断 一 个 样本 
属于 哪个 类 别 。 分 类 问题 可 以 细 分 如 下 : 

。 二 分 类 问题 : 表示 分 类 任务 中 有 两 个 类 别 新 的 


样本 属于 哪 种 已 知 的 样本 类 。 


。 多 类 分 类 (Multiclass Classification ) 问 


。 多 标签 分 类 ( Multilabel Classification ) 问 
题 : 给 每 个 样本 一 系列 的 目标 标签 。 


分 类 预测 | 监督 学 习 : 村 
监督 学 习 有 数据 有 标签 的 学 习 方式 司 
回归 分 : 人 SEE ES 和 
虽 癌 | 1 十 证 的 国人 | NREC 人 
尿 辑 回归 算法 详解 和 和 
由 无 监督 学 习 公有 米 握 无 标签 的 学 习 方式 四 
算法 分 类 宇 
民 AN 
| 强化 学 习 ; 
Qr+eaning 
强化 学 习 有 延 迟 和 稀疏 的 反馈 标签 的 学 习 方式 
时 间 差 学 习 4 搜索 | 微 信 ShowMeA1 研 究 中 心 ， 


2 ) 分 类 问题 的 数学 抽象 


从 算法 的 角度 解决 一 个 分 类 问题 ， 我 们 的 训练 数据 
会 被 映射 成 n 维 空间 的 样本 点 〈 这 里 的 n 就 是 特征 维 
度 ) ， 我 们 需要 做 的 事情 是 对 n 维 样本 空间 的 点 进行 


类 别 区 分 ， 有 某 些 点 会 归属 到 某 个 类 别 。 


下 图 所 示 的 是 二 维 平面 中 的 两 类 样本 点 ， 我 们 的 模 
型 (分 类 器 ) 在 学 习 一 种 区 分 不 同类 别 的 方法 ， 比 
如 这 里 是 使 用 一 条 直线 去 对 2 类 不 同 的 样本 点 进行 切 


人 
丰 。 


人 类 问题 (监督 学 习 ) 


根据 数据 样本 上 机 取出 的 特征 ， 判 定 其 属 干 有 限 个 类 别 中 的 哪 一 个 


逻辑 回归 算法 详解 ESEE 二 
区 分 类 珊 测 人 二 区 应 用 场景 ”类 型 | 结果 类 跑 , 
回归 分 析 ”和 
栗 类 2 


局 虽 人 已 下 


引 
垃 地 邮件 识别 。 二 分 类 这 阴 邮 件 “1 


二 猫 | 物 | 人 
图 像 内 容 识别 多 类 分 类 部 不 是 


文本 情感 分 析 。 二 分类 。。 豪 / 工 
多 类 分 类 


| 相 过 | 微 信 ShowMeAl 研究 中 心 


常见 的 分 类 问题 应 用 场景 很 多 ， 我 们 选择 几 个 进行 
举例 说 明 : 


。 垃圾 邮件 识别 : 可 以 作为 二 分 类 问题 ， 将 邮件 
分 为 你 "垃圾 邮件 , 或 者 “正音 邮 件 , 。 


。 图 像 内 容 识别 : 因为 图 像 的 内 容 种 类 不 止 一 
个 ,图像 内 容 可 能 是 猫 、 狗 、 人 等 等 ， 因 此 是 


3 发 LN z 日 
多 类 分 类 问题 。 


。 文 本 情感 分 析 : 既 可 以 作为 二 分 类 问题 ， 将 情 
感 分 为 说 凤 两 种 ， 还 可 以 作为 多 类 分 类 问题 ， 
将 情感 种 类 扩展 ， 比 如 分 为 : 十 分 消极 、 消 
杖 、 积 极 、 十 分 积极 等 。 


2. 隐 辑 回归 算法 核心 思想 


下 面 介绍 本 次 要 讲解 的 算法 一 一 逮 辑 回归 (Logistic 
Regression ) 。 还 辑 回归 是 线性 回归 的 一 种 扩展 ， 


用 来 处 理 分 类 问题 。 


1 ) 线性 回归 与 分 关 


分 类 问题 和 回归 问题 有 一 定 的 相似 性 ， 都 是 通过 对 
效 据 集 的 学 习 来 对 未 知 结果 进行 预测 ， 区 别 在 于 输 
出 值 不 同 。 


。 分 类 问题 的 输出 值 是 离散 值 ( 如 垃 坡 邮 件 和 正 
音 邮 件 ) 。 


。 回归 问 题 的 输出 值 是 连续 值 (例如 房子 的 价 
格 ) 。 


既然 分 类 问题 和 回归 问题 有 一 定 的 相似 性 ， 那 么 我 
们 能 不 能 在 回归 的 基础 上 进行 分 类 呢 ? 


可 以 想到 的 一 种 党 试 思路 是 ， 先 用 线性 拟 合 ， 然 后 
对 线性 拟 合 的 预测 结果 值 进行 量化 ， 即 将 连续 值 量 
化 为 离散 值 一 一 即使 用 "线性 回归 + 阅 值 。 解决 分 


类 问题 。 


我 们 来 看 一 个 例子 。 假 如 现在 有 一 个 关于 肿瘤 大 小 
的 数据 集 ， 需 要 根据 肿瘤 的 大 小 来 判定 是 良性 ( 用 
效 子 0 表示 ) 还 是 六 性 〈 用 数字 1 表示 ) ， 这 是 一 个 


EL 
肿瘤 的 大 小 大 干 5， 即 为 恶性 肿瘤 (输出 为 1) 吗 
用 痪 的 大 小 等 二 5， 即 为 良性 肿 痪 ( 输 册 为 0 吕 
雇 奶 回 | 阔 : 1 器 
逮 辑 回归 算法 详解 | 、 
| @@ ”良性 肿 痪 疡 
芝 
名 os 
和 
线性 回归 + 阔 值 
本 s 肿瘤 大小 志 这 | 赏 信 ShowMeAI 研 究 中 心 | 
中 http:Wwww.showmeaitechy 


如 上 图 ， 目 前 这 个 简单 的 场景 我 们 得 到 1 个 直观 的 判 
定 : 肿瘤 的 大 小 大 于 5， 即 为 恶性 肿瘤 〈 输出 为 

1 ) ; 肿瘤 的 大 小 等 于 5， 即 为 良性 肿瘤 〈 输出 为 
0 ) 。 
下 面 我 们 学 试 之 前 提 到 的 思路 ， 使 用 一 元 线性 函数 
h(x)=60+61xh(x =xtheta 0O+theta 1xX 
h(x)=60+61x 去 进行 拟 合 数据 ， 函 数 体 现在 图 片 中 
就 是 这 条 黑色 直线 。 


(| 
线性 回归 值 大 干 0.5， 就 输出 1( 恶 性 肿 交 ) 吹 
线性 回归 值 小 干 0.5， 就 输出 o( 良 性 肿 痪 ) 纪 
有 1 法 了 > 
逮 辑 回归 算法 详解 1 S 
| 一 全 ”良性 肿 痪 吕 
[in 7 坐标 (5, 0.5) 
5 地 

线性 回归 + 闭 值 二 

人 s 肿 痪 大 涉 雪 索 | 赏 售 ShowMehl 研 究 中 心 | 
中 httpwww.showmeaitechy 


这 样 分 类 问题 就 可 以 转化 为 : 对 于 这 个 线性 拟 合 的 
假设 函数 ， 给 定 一 个 肿瘤 的 大 小 ， 只 要 将 其 带 入 假 


设 函 数 ， 并 将 其 输出 值 和 0.5 进 行 比较 : 


。 如果 线性 回归 值 大 于 0.5， 就 输出 1 ( 有 悉 性 肿 
瘤 ) 。 


。 如果 线性 回归 值 小 于 0.5， 就 输出 0 ( 良性 肿 
瘤 ) 。 


| 
肿瘤 大 小 为 6， 线 性 回归 值 小 于 0.5， 输 出 0 (良性 肿瘤) 加 
错 将 其 误 判 为 良性 肿瘤 亚 
相 和 1 二 > 坷 
下 口 ] 局 算法 详解 1 9 1 9 人 1 1 人 肌 和 l @ 
| 罗 “良性 肿瘤 醒 
| 学 ai 
上 到 和 YY 

os [下 二 不 能 单纯 地 通过 将 线性 拟 合 的 输 

得 | 出 值 与 某 一 个 闻 值 进行 比较 这 种 
线性 回归 + 阔 值 下 方式 来 进行 星 化 。 | 
人 i0 12 14 肿 痪 大 小 视 索 | 和 全 ShowMeh1 研 究 中 心 

中 http:Wwww.showmeaitechy 


上 图 的 数据 集中 的 分 类 问题 被 完美 解决 。 但 如 果 将 

数据 集 更 改 一 下 ， 如 图 所 示 ， 如 果 我 们 还 是 以 0.5 为 
判定 国 值 ， 那 么 就 会 把 肿瘤 大 小 为 6 的 情况 进行 误 判 
为 民 好 。 


所 以 ， 单 纯 地 通过 将 线性 拟 合 的 输出 值 与 某 一 个 阔 
值 进行 比较 ， 这 种 方法 用 于 分 类 非常 不 稳定 。 
2 ) 远 辑 回归 核心 思想 


因为 “线性 回归 + 国 值 : 的 方式 很 难得 到 鲁 棒 性 好 
的 分 类 器 ， 我 们 对 其 进行 拓展 得 到 鲁 棒 性 更 好 的 逻 


辑 回归 (Logistic Regression ， 有 些 地 方 也 叫做 
对 数 几 率 回 归 ，) 。 逻 辑 回归 将 数据 拟 合 到 一 个 
logit 函 数 中 ， 从 而 完成 对 事件 发 生 概率 的 预测 。 


如 果 线 性 回归 的 结果 输出 是 一 个 连续 值 ， 而 值 的 范 
围 是 无 法 限定 的 ， 这 种 情况 下 我 们 无 法 得 到 稳定 的 
判定 国 值 。 那 是 否 可 以 把 这 个 结果 映射 到 一 个 固定 
大 小 的 区 间 内 (比如 0 到 1 ) ， 进 而 判断 呢 。 


当然 可 以 ， 这 就 是 逻辑 回归 做 的 事情 ， 而 其 中 用 于 
对 连续 值 讨 缩 变换 的 函数 叫做 Sigmoid 咀 数 (也 称 
Logistic 国 数 ，S 耻 数 ) 。 


如 果 线 性 回归 的 结果 输出 是 一 个 连续 值 ， 而 值 的 范围 是 无 法 限定 的 时 
那 可 以 把 这 个 结果 映射 为 (0, D 上 的 概率 值 ， 帮 助 判断 结果 。 术 
肥 辑 回归 算法 详解 “国人 - 
外 / 加 
sa = 一 / 1，Z>0 轴 

因 1/ 4 一 40.5，z=0 

/ 0，2z<0 
Sigmoid 函 数 
_ howMeAl 研究 中 心 | 

本 和 洲 ， 0 与 六 测 
Sigmoid 数 学 表达 式 为 


S(x)=11+e-XxS(Xx=xdfrac(1}{f+e^{(-X)) 
S(X)=1+e-X1 


可 以 看 到 S 函 效 的 输出 值 在 0 到 1 之 间 。 


3.Sigmoid 函 数 与 决策 边界 


刚才 大 家 见 到 了 Sigmoid 函 数 ， 下 面 我 们 来 讲 讲 它 
和 线性 拟 合 的 结合 ， 如 何 能 够 完成 分 类 问题 ， 并 且 
得 到 清晰 可 解释 的 分 类 器 判定 ' 决策 边界 , 。 


1 ) 分 拓 与 决 禹 边界 


决策 边界 就 是 分 类 器 对 于 样本 进行 区 分 的 边界 ， 主 
要 有 线性 决策 边界 (linear decision boundaries ) 
和 非 线 性 决策 边界 (non-linear decision 
boundaries ) ， 如 下 图 所 示 。 


8 
逻辑 回归 (Logistic Regression) 通 常 并 不 拟 合 样本 分 布 到 
而 是 确定 决策 边界 (线性 决策 边界 & 非 线性 决策 边界 ) 习 
还 辑 回归 算法 详解 
Se 5 
和 尖 - 本 
世人 
机 
线性 决策 边界 非 线性 决策 边界 得 索 | 赏 信 ShowMeAl 研 究 中心 | 


中 http:Wwww.showmeaitechy 


2 ) 线性 决策 边界 生成 


那么 ， 逻 辑 回归 是 怎么 得 到 决策 边界 的 呢 ， 马 与 
Sigmoid 兄 数 又 有 什么 关系 呢 ? 


如 下 图 中 的 例子 : 


如 果 我 们 用 函数 g 表 示 Sigmoid 函 数 ， 还 辑 回归 的 输 
出 结果 由 假设 函数 h6e(x)=g(60+61x1+62 
Xx2)h_ ftheta}(x)=gNlefttheta_{O0}+xtheta_{1) 
X_{1}+theta_{2}) x_{2}Night) hg(X)=g(60+61Xx1+62 
Xx2) 得 到 。 


对 于 图 中 的 例子 ， 我 们 暂时 取 参 数 60、61、62 
heta_{0}、Ntheta_{1} 、Nheta_ {2}) 60、61、62 分 
别 为 -3、1 和 1， 那 么 对 于 图 上 的 两 类 样本 点 ， 我 们 
代入 一 些 坐 标 到 h6 (xy) h_fthetal(x) h9(x)， 会 得 
到 什么 结果 值 呢 。 


线性 决策 边界 


jeGo =9(6o+ gl2xa 十 92xz) 


巡 辑 回归 算法 详解 “的 生 本 各 本 


【1 


多 了 朋 es 


线性 决策 边界 生成 \ee | 5- 


元 
发 售 ShowMeAl 研究 中 心 | 


人 


中 http:wwww.showmeaitechy 0 


对 于 直线 上 方 的 点 (x1 ,x2)Neft(x {f1}， 
x_{2} Vight ) (x1,x2)〔 例 如 (100 , 100 ) Meft 
100, 100 \ight ) (100,100) ) ， 代 入 -3+X1 
+Xx2-3+Xx {1}+x {2} -3+x1+X2， 得 到 大 于 0 
的 取 值 ， 经 过 Sigmoid 映 射 后 得 到 的 是 大 于 0.5 
的 取 值 。 


。 对 于 直线 下 方 的 点 (x1,x2)Neft(x {1}， 
x_{2] vight ) (x1,x2) (例如 (0,0)Neft(0,0 
vight ) (0,.0) ) ， 代 入 -3+X1+X2-3+ 
x_{1}+ x_{2} -3+x1+Xx2， 得 到 小 于 0 的 取 值 ， 
经 过 Sigmoid 了 映射 后 得 到 的 是 小 于 0.5 的 取 值 。 


如 果 我 们 以 0.5 为 判定 边界 ， 则 线性 拟 合 的 直线 - 3 
+Xx1+x2=0-3+x{1)+x{2)=0-3+x1+x2=0 变 
换 成 了 一 条 决策 边界 (这 里 是 线性 决策 边界 ) 。 


3 ) 非 绪 性 央 宋 边界 生成 


其 实 ， 我 们 不 仅仅 可 以 得 到 线性 决策 边界 , 当 h6( 
x ) h_{fheta}(x) h6(Xx) 更 复杂 的 时 候 ， 我 们 甚至 可 以 
得 到 对 样本 非 线 性 切 分 的 非 线性 决策 边界 (这 里 的 
非 线性 指 的 是 无 法 通过 直线 或 者 超 平面 把 不 同类 别 
的 样本 很 好 地 切 分 开 ) 。 


如 下 图 中 另外 一 个 例子 : 如 果 我 们 用 邑 数 g 表 示 
Sigmoid 郧 数 ， 还 辑 回归 的 输出 结果 由 假设 函数 h 6 
(Xx)=g(60+61x1+62x2+63x12+64x 
22)h fthetal(x)=gNeftAtheta_{0}+theta_{11)} 
X_{1}+xtheta_{2} x_{2}+xtheta_{3) Xx_{1}^A(2}+ 
heta_{4} x_{2}^{2}Nright) h6(X)=g(60+61x1+62X2 


+63x12+64x22) 得 到 。 


对 于 图 中 的 例子 ， 我 们 暂时 取 参 数 60、61、62 
、63、64xtheta {0} 、xtheta_ {11} 、Nheta_ {2) 
、xheta_{3} 、Ntheta_{4} 60、61、62、63、64 分 
别 为 -1、0、0、1 和 1， 那么 对 于 图 上 的 两 类 样本 
点 ， 我 们 代入 一 些 坐 标 到 

he6(xy)h fthetal(x) he(xX)， 会 得 到 什么 结果 值 

听 。 
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本 
jeGo = 9g(go+6ix 十 9szz 二 gax3) 


DS7 同 吓人 全 下 


镶 有 4 


非 线性 决策 边界 生成 


(搜索 | 微 售 ShowMeAI 研究 中 心 | 
让 


。 对 于 圆 外 部 的 点 (Xx1,x2)ANeft(x{1},x {2) 
vight ) (Xx1,x2) (例如 ( 100 , 100 ) Neft ( 100， 
100 \ight ) (100,100) ) ， 代 入 60+61Xx1+ 
62x2+63x12+64Xx22'theta {0)}+ 
vtheta_{1} x_{1}+xtheta_{2} x_ {2}+theta_{93)} 
X_{1}^{2)}+theta_{4) x_{2}^{2) 60+61Xx1+62X2 
+63x12+64x22， 得 到 大 于 0 的 取 值 ， 经 过 
wa 


。 对 于 圆 内 部 的 点 (Xx1,x2)ANeft(x {1},x {2) 
Vight ) (x1,x2) (例如 (0,0)Neft (0,0Night ) 
(0 0) 代入 001XTT 二 昌 2 天 2 二 3 
2+64Xx22'\theta {0}+theta {1} xx _{11}+ 
vtheta_{2}) x_{2}+xtheta_{3} X_{1}A{2}+ 
vtheta_{4} x_{2}^A{2) 60+61x1+02Xx2+63Xx12 
+604x22， 得 到 小 于 0 的 取 值 ， 经 过 Sigmoid 映 
射 后 得 到 的 是 小 于 0.5 的 取 值 。 


如 果 我 们 以 0.5 为 判定 边界 ， 则 线性 拟 合 的 圆 曲 线 - 
下 二 天 市 世人 国 下 0 人 习 
+X22=0 变 换 成 了 一 条 决策 边界 ( 这 里 是 非 线 性 决策 
边界 ) 。 


4. 杭 度 下 降 与 优化 


1 ) 损失 函数 


前 一 部 分 的 例子 中 ， 我 们 手动 取 了 一 些 参数 6 的 取 
值 ， 最 后 得 到 了 决策 边 春 。 但 大 家 显然 可 以 看 到 ， 
取 不 同 的 参数 时 ， 可 以 得 到 不 同 的 决策 边界 。 


哪 一 条 决策 边界 是 最 好 的 呢 ? 我 们 需要 定义 一 个 能 
量化 衡量 模型 好 坏 的 画 效 一 一 损失 闻 数 ( 有 时 候 也 


叫做 "目标 函数 ， 或者" 代价 函数 ，) 。 我 们 的 目 
标 是 使 得 损失 闻 效 最 小 化 。 


我 们 如 何 衡量 预测 值 和 标准 答案 之 间 的 差异 呢 ， 最 

简单 直接 的 方式 是 数学 中 的 均 方 误 差 。 它 的 计算 方 

式 很 简单 ， 对 于 所 有 的 样本 点 xi x_{i} xi， 预测 值 h 
6(xi) h_fthetal(x_fi) h6(xi) 与 标准 答案 yiy_ fi yi 
作 差 后 平方 ， 求 均值 即 可 ， 这 个 取 值 越 小 代表 差异 

度 越 小 。 


MSE-1m?i=1m(f(xi)-yi)2MSE- 
racf1Hml \sum_{fi=1yA(myNeft(Neft(x_{ 人 right)- 
y {fijvightyAf2} MSE=m1i=12 m(f(xi)-yi)2 


均 方 误差 对 应 的 损失 浮 数 : 均 方 误差 损失 ( MSE ) 
在 回归 问题 损失 定义 与 优化 中 广泛 应 用 ， 但 是 在 逻 
辑 回归 问题 中 不 太 适 用 。sigmoid 函 数 的 变换 使 得 我 
们 最 终 得 到 损失 阵 数 曲 线 如 下 图 所 示 ， 是 非常 不 光 
滑 四 凸 不 平 的 ， 这 种 数学 上 叫做 非 凸 的 损失 浮 数 

(天 于 损失 了 男 数 与 吓 优 化 更 多 知识 可 以 参考 
ShowMeAI 的 文章 图 解 Al 数学 基础 | 微 积分 与 最 优 
化 ) ， 我 们 要 找到 最 优 参数 〈 使 得 函数 取 值 最 小 的 
参数 ) 是 很 困难 的 。 


CD 1 7 
ee 均 方 差 横 失 (MSE) 函数 MSE = 元 》 (Ga 20? 
1 
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可 和 失 函数 /(9) 的 值 越 小 越 好 。 

唱 

这 、 克 
J(@)= 元 》 (ne(x@)-y>@) 


i=1 


局 
均 方 差 损 失 函 数 


4 本 
Je) 非 本 函数 : 局 部 最 优 解 了 全 局 最 优 解 一 丰富 三 ShowMeA 研 究 中 心 


中 http:Wwww.showmeaitechy 


解释 : 在 逻辑 回归 模型 场景 下 ， 使 用 MSE 得 到 的 损 
失 浮 数 是 非 凸 的 ， 数 学 特性 不 六 好 ， 我 们 希望 损失 
纹 数 如 下 的 凸 函 数 。 吓 优化 问题 中 ， 局 部 最 优 解 同 
时 也 是 全 局 最 优 解 ， 这 一 特性 使 得 凸 优化 问题 在 一 
定 意 义 上 更 易于 解决 ， 而 一 般 的 非 凸 最 优化 问题 相 
比 之 下 更 难 解 决 。 


我 们 更 希 于 我 们 的 损失 函数 如 下 图 所 示 ， 是 凸 阴 
效 ， 我 们 在 数学 上 有 很 好 优化 方法 可 以 对 其 进行 优 
化 。 


一 | 
1 凸 优化 问题 中 ， 局 部 最 优 解 同 时 也 是 全 局 最 优 解 二 | 
号 [| <s:: 史 
逻 龟 回 月 算法 详解 -一 Gradient 损 拓 函数 /(8)] 的 值 越 小 越 好 号 
JGg) = 全 alogm 人 ao] + (1 -9)iog(1- 9 
Yaoblasmininum 和 (xO] 是 zO 的 估计 值 

均 方 差 损 和 失 函 数 

2 宫 失 索 | 党 信 ShowMeA1 研 究 中 心 | 
7(g) 西 函数 : 局 部 最 优 解 = 全 局 最 优 解 da 
中 httpWwww.showmeaitechy 


在 逻辑 回归 模型 场景 下 ， 我 们 会 改 用 对 数 损失 浮 数 
(二 元 交叉 灶 损 失 ) ， 这 个 损失 函数 同样 能 很 好 地 


衡量 参数 好 坏 ， 又 能 保证 凸 玫 数 的 特性 。 对 数 损失 
级 效 的 公 陈 如 下 : 


J(9)=-1m[2i=1my(i)log he6e(x(i))+ 

(1-y(D)iog (1-h9(xtiD)))]JNtheta)=- 

racf{1{mNeftsum_ fi=1) Im) y^A(OD Nog 

h_ 人 thetaNleft(xA{(D)Aright)+Neft(1-yA{(D right) Nog 

Meft(1-h_fthetajNeft(xA{(D) right)right)right] J(6)= 
脏 


-mlli=12 my(ij)logh6(x(iD)+(1-y(iD)log(1-h9(x(D7] 


其 中 y (i) y^A{()) y() 表 示 样 本 取 值 ， 在 其 为 正 样本 
时 取 值 为 1， 负 样本 时 取 值 为 0， 我 们 分 这 两 种 情况 
来 看 看 : 


Eee 对 数 栅 失 函数 (二 元 交 洋 糖 损 失 ) 


逻辑 回归 算法 详解 | -log(ieco) 太 y 
Cost(heCo, 妨 = 


heCo) hecoO -logG -jhocoO) 矿 y 


yY= 0 的 情况 y = 1 的 情况 
| GD 禄 索 | 微 信 ShowMeAl 研 究 中 心 | 
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Cost (h6(x),y)={(-log (hb6(x))ify=0- 
log (1-h6el(x))ify=1 
operatorname{CostyNeft(h_{fNtiheta}l(x), yight)=Nleft 
begin{farray}{ AIog Meft(h_ 人 thetal(X)Nright) & 
vtext { 寺 ) y=0N-og Meft(1-h_ 人 Nthetal(X)Nright) & 


外 上 
iT 


ext {} y=1 endfarray}right. Cost(hb 
(X),y)={-log(h6(x))-log(1-h6(Xx)) 这 y=O ify=1 


-y(i)=0y^f()}=0y()=0 : 当 一 个 样本 为 负 样 本 
时 , 若 h6(x)h fthetal(x) h6lx) 的 结果 接近 1( 即 
预测 为 正 样本 ) ， 那 么 -log (1-h6(x))-Nog 
eft(1-h_{fthetajNeft(xvight)right) -log(1-h6(x)) 的 
值 很 大 ， 那 么 得 到 的 惩罚 就 大 。 


-y(i)=1y^(D)}=1y()=1 : 当 一 个 样本 为 正 样 本 
时 , 若 h6(xy)h fthetal(x) h9(x) 的 结果 接近 0( 即 
预测 为 负 样本 ) ， 那 么 -log (h6(x))-Nlog 
Meft(h_{fNthetajNleft(x\right)vight) -log(h6(x)) 的 值 很 
大 ， 那 么 得 到 的 秆 罚 就 大 。 


2 ) 梯度 下 降 


损失 浮 数 可 以 用 于 衡量 模型 参数 好 坏 ， 但 我 们 还 需 
要 一 些 优化 方法 找到 最 佳 的 参数 ( 使 得 当前 的 损失 
级 数值 最 小 ) 。 最 音 见 的 算法 之 一 是 “梯度 下 降 
法 ， 逐 步 适 代 成 小 损失 函数 (在 凸 数 场景 下 非 
单 容易 使 用 ) 。 如 同 下 山 ， 找 准 方向 (斜率 ) ， 每 
次 迈进 一 小 步 ， 直 至 山 搬 。 


逐步 和 代 减 小 损失 函数 2 


逻辑 回归 算法 详解 “国医 1 (mm 函数) 


如 同 下 山 : 
。 找 准 方向 (斜率 ) 

it AN 。 每 次 迈进 一 小 步 
梯度 下 降 人 7 汉 。 直至 山 底 


汲 信 ShowMeA1 研 究 中 心 | 


二 
二 梯度 下 降 法 国 
人 | 
人 2 


局 朋 epwS 


中 http:Wwww.showmeaitechy 


梯度 下 降 (Gradient Descent ) 法 ， 是 一 个 一 阶 最 
优化 算法 ， 通 常 也 称 为 最 速 下 降 法 。 要 使 用 梯度 下 
降 法 找到 一 个 函数 的 局 部 极 小 值 ， 必 须 向 函数 上 当 
前 点 对 应 梯度 〈 或 者 是 近似 梯度 ) 的 反方 向 的 规定 
步 长 距离 点 进行 运 代 搜索 。 


一 元 损失 函 数 二 元 模 失 函数 


Re 人 AT 


Staning 
记 和 


Poml 也 
NS 三 榴 = 2507CG0) 
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DTV 


钨 于 


梯度 下 降 


加 得 索 | 微 信 ShowMeAl 研 究 中 心 | 


中 httpWwwwshowmeaitechy 


上 图 中 ，o 称 为 学 习 率 〈learning rate ) ， 直 观 的 意 
义 是 ， 在 函数 向 极 小 值 方向 前 进 时 每 步 所 走 的 步 
长 。 太 大 一 般 会 错过 极 小 值 ， 太 小 会 导致 适 代 次 数 


梯度 下 降 学 习 率 的 影响 
Loss 
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Le AT 


学 习 率 太 大 引 
会 震 薄 甚 至 不 收 你 


梯度 下 降 - 学 习 率 


(天 于 损失 函数 与 凸 优 化 更 多 知识 可 以 参考 
ShowMeAI 的 文章 图 解 Al 数学 基础 | 微 积分 与 最 优 
化 http://www.showmeaitech/article-detaiVy165， 关 
于 监督 学 习 的 更 多 总 结 可 以 查看 ShowMeAI 总 结 的 
速 查 表 手 册 Al 知识 技能 速 查 | 机 器 学 习 - 监 督学 习 ) 


5. 正 则 化 与 缓解 过 拟 合 


1 ) 过 拟 合 现象 


在 训练 数据 不 够 多 ， 或 者 模型 复杂 又 过 度 训练 时 ， 
模型 会 陷入 过 拟 合 (Overfitting ) 状态 。 如 下 图 所 
示 ， 得 到 的 不 同 拟 合 曲线 ( 决策 边界 ) 代表 不 同 的 
模型 状态 : 


。 拟 合 曲线 1 能 够 将 部 分 样本 正确 分 类 ， 但 是 仍 
有 较 大 量 的 样本 未 能 正确 分 类 ， 分 类 精度 低 ， 


是 欠 拟 合 , 状态 。 


。 拟 合 曲线 2 能 够 将 大 部 分 样本 正确 分 类 ， 并 且 
有 足够 的 沁 化 能 力 ， 是 较 优 的 拟 合 曲线 。 


。 拟 合 曲线 3 能 够 很 好 的 将 当前 样本 区 分 开 来 ， 
但 是 当 新 来 一 个 样本 时 ， 有 很 大 的 可 能 不 能 将 
其 正确 区 分 ， 原 因 是 该 决策 边界 太 努 力 地 学 习 
当前 的 样本 点 ， 甚 至 把 它们 直接 " 记 , 下 来 
了 


[| 
希望 学 习 到 一 个 对 两 类 样本 点 有 效 切 但 的 决策 边界 " 泛 化 " 指 的 是 一 个 假设 模型 刺 
同时 希望 学 习 到 的 决策 边界 泛 化 能 力 足 够 好 能 够 应 用 到 新 样本 的 能 力 因 
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拟 合 曲线 中 的 “抖动 ，， 表示 拟 合 曲线 不 规则 、 不 
光滑 (上 图 中 的 拟 合 曲线 3 ) ， 对 数据 的 学 习 程度 
深 , 过 拟 合 了 。 


2 ) 正则 化 处 理 


过 拟 合 的 一 种 处 理 方式 是 正则 化 ， 我 们 通过 对 损失 
级 数 添加 正则 化 项 ， 可 以 约束 参数 的 搜索 空间 ， 从 
而 保证 拟 合 的 决策 边界 并 不 会 抖动 非常 厉害 。 如 下 
图 为 对 数 损失 上浮 数 中 加 入 正则 化 项 (这 里 是 一 个 L2 


正则 化 项 ) 


逮 辑 回归 算法 详解 /En 和 


表示 惩罚 程度 己 


-二 时 Lelvt)-G-mjusG-w(eo] + 高 袜 人 


全 ee 人 AT 


正则 化 处 理 
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J(9)=1m2i=1m[-y(i)log (he9Cx(i))) 
汪 直 二 大 (人 关 6 尖 下 二 人 昌 《 有 门 征订 2 而 总 | 
=1n6j2Jotheta)=\rac{f1j{m} sum_{i=1} 
^{mANeft[-yA{()} Mog 

Meft(h_ 人 thetaNeft(xA{(DNAright)Nright)-Neft(1- 
y^A{(DAright) Mog \left(1- 

h_fthetaleft(x^A{()) right)right)Nright]+ 
racflambdal{2 ml \sSum_1=1}^A(n theta_{)^(2)} 
Jo)=m1i=12 m[-y(jlog(h8(x(D)))-(1-y(iD))log(1-hg 
(x()))]+2mAN=1 2 ngoj2 


其 中 入 \ambda 入 表示 正则 化 系数 ， 表 示 秆 罚 程度 ， 

入 ambda 和 的 值 越 大 ， 为 使 J( 6 ) J(theta) J(6) 的 

值 小 ， 则 参数 6 \theta 6 的 绝对 值 就 得 越 小 ， 通 常 对 
应 于 越 光 滑 的 函数 ， 也 就 是 更 加 简单 的 水 数 ， 因 此 

不 易 发 生 过 拟 合 的 问题 。 我 们 依然 可 以 采用 梯度 下 

降 对 加 正则 化 项 的 损失 函数 进行 优化 。 


6. 特 征 概 换 与 非 线 性 表达 


1 ) 多 项 却 特 征 


对 于 输入 的 特征 ， 如 果 我 们 直接 进行 线性 拟 合 再 给 
到 Sigmoid 上 浮 数 ， 得 到 的 是 线性 决策 边界 。 但 添加 
多 项 式 特征 ， 可 以 对 样本 点 进行 多 项 式 回 归 拟 合 ， 
也 能 在 后 续 得 到 更 好 的 非 线 性 决策 边界 。 


aa 
添加 多 项 式 特征 ， 可 以 对 样本 点 进行 多 项 式 回归 柜 合 思 
也 能 在 后 续 得 到 更 好 的 非 线性 决策 边界 训 
逮 辑 回归 算法 详解 和 
| 己 
@/ 辆 
王 ” 
e@ e@ 一 @ 、 
一 全 一 奋 一 搜索 ShowMeAl 研究 中 心 | 


多 项 式 回 归 ， 回 归 冰 数 是 回归 变量 多 项 式 。 多 项 式 
回归 模型 是 线性 回归 模型 的 一 种 ， 此 时 回归 浮 数 天 
于 回归 系数 是 线性 的 。 


在 实际 应 用 中 ， 通 过 增加 一 些 输入 数据 的 非 线性 特 
征 来 增加 模型 的 复杂 度 通 弟 是 有 效 的 。 一 个 简单 通 
用 的 办 法 是 使 用 多 项 陈 特征 ， 这 可 以 获得 特征 的 更 
高 维度 和 互相 间 天 系 的 项 ， 进 而 获得 更 好 的 实验 结 
采 。 


2 ) 非 线 性 切 分 


如 下 图 所 示 ， 在 逻辑 回归 中 ， 拟 合 得 到 的 决策 边 
界 ， 可 以 通过 添加 多 项 式 特征 ， 调 整 为 非 线性 决策 
边界 ， 有 具备 非 线性 切 分 能 力 。 


-Z6(x)Z fthetal(x) Z6(00 中 6 Ntheta 6 是 参数 ， 
当 Z6(x)=60+61xZ fthetal(x = heta {0)} 
+ heta_{1}x Z6(x)=60+61x 时 ， 此 时 得 到 的 是 线性 
决策 边界 ; 


-Z6(x)=60+061x+62x22 {fNhetal(X) = 
vtheta_{0} + xtheta_{1)x + theta_{2}x^2 Z6(X)=60 
+61x+62x2 时 ， 使 用 了 多 项 式 特征 ， 得 到 的 是 非 线 
性 决策 边界 。 


逮 辑 回归 算法 详解 


二 356 ZeCO) 
其 中 的 zo(z) 取 下 放 的 不 同 函数 时 ， 得 到 的 决策 边界 是 不 一 样 的 - 


非 线性 切 分 


中 http:Wwww.showmeaitechy 


目的 是 低 维 绪 性 不 可 分 的 数据 转化 到 高 维 时 ， 会 变 
成 线性 可 分 。 得 到 在 高 维 空间 下 的 线性 分 割 参数 喘 
射 回 低 维 空间 ， 形 式 上 表现 为 低 维 的 非 线 性 切 分 。 


更 多 监督 学 习 的 算法 模型 总 结 可 以 查看 ShowMeAI 
的 文章 Al 知识 技能 速 查 | 机 器 学 习 - 监 督学 习 。 
视频 教程 

可 以 点 击 B 站 查看 视频 的 【双语 字幕 】 版 本 


【双语 字幕 + 资料 下 载 】MIT 6.036 | 机 器 学 习 导 论 
(2020. 完 整 版 ) 


【双语 字幕 + 资料 下 载 】MIT 6.036 | 机 器 学 
导论 (2020. 完 整 版 ) 


https:/www.bilibilcomAvideo/ 
BV1y44y187wN?p=4 
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在 众多 机 器 学 习 分 类 算法 中 ， 本 篇 我 们 提 到 的 朴素 


贝 叶 斯 模型 ， 和 其 他 绝 大 多 数 分 类 算法 都 不 同 ， 也 
是 很 重要 的 模型 之 一 。 


在 机 器 学 习 中 如 KNN、 逻 辑 回归 、 决 策 树 等 模型 都 
是 判别 方法 ， 也 就 是 直接 学 习 出 特征 输出 Y Y Y 和 
特征 X X X 之 间 的 关系 (决策 函 数 Y =f(X)Y= 
f(X) Y=f(X) 或 者 条 件 分 布 P(Y1X ) P(YIX) 

P(YIX) ) 。 但 朴素 贝 叶 斯 是 生成 方法 ， 它 直接 找 出 
特征 输出 Y Y Y 和 特征 X X X 的 联合 分 布 P(X ,Y ) 
P(X,Y) P(X,Y)， 进 而 通过 P(YIX)=P(X,Y)P 
(X) P(Y \mid X)= \frac{P(X,Y)}{P(X)} 
P(YIX)=P(X)P(X,Y) 计 算得 出 结果 判定 。 


朴素 贝 叶 斯 是 一 个 非常 直观 的 模型 ， 在 很 多 领域 有 
广 沁 的 应 用 ， 比 如 早期 的 文本 分 类 ， 很 多 时 候 会 
它 作为 baseline 模 型 ， 本 篇 内 容 我 们 对 朴素 贝 叶 斯 
算法 原理 做 展开 介绍 。 


1. 朴 系 贝 叶 斯 算法 核心 思想 


贝 叶 斯 分 类 是 一 类 分 类 算法 的 总 称 ， 这 类 算法 均 以 
贝 叶 斯 定理 为 基础 ， 故 统称 为 贝 叶 斯 分 类 。 而 朴素 
贝 叶 斯 CNaive Bayes ) 分 类 是 贝 叶 斯 分 类 中 最 简 
单 ， 也 是 常见 的 一 种 分 类 方法 。 


朴素 贝 叶 斯 算法 的 核心 思想 是 通过 考虑 特征 概率 来 
预测 分 类 ， 即 对 于 给 出 的 待 分 类 样本 ， 求 解 在 此 样 
本 出 现 的 条 件 下 各 个 类 别 出 现 的 概率 ， 哪 个 最 大 ， 
就 认为 此 待 分 类 样本 属于 哪个 类 别 。 


区 二 = 二 7 贡 kdshxH 本 来 
Saes 有 解 在 此 样本 出 现 的 条 件 下 
各 个 类 出 肌 的 李 ， 虽 人 志 
最 大 ,就 认为 此 待人 类 村 本 
基干 概率 的 预测 属 干 哪个 类 别 。 
| 加 得 训 | 党 售 ShowMeAil 研 究 中 心 | 


举 个 例子 : 眼前 有 100 个 西瓜 ， 好 瓜 和 坏 瓜 个 数 差 
不 多 ， 现 在 要 用 这 些 西 瓜 来 训练 一 个 坏 瓜 识别 
器 ， ， 我 们 要 生 么 办 呢 ? 


一 般 挑 西瓜 时 通常 要 ' 敲 一 禹 ， ， 听 听 声 音 ， 是 清 
脆 声 、 浊 响声 、 还 是 沉 疝 声 。 所 以 ， 我 们 先 简单 点 
考虑 这 个 问题 ， 只 用 敲 击 的 声音 来 辨别 西瓜 的 好 
坏 。 根 据 经 验 ， 敲 击 声 清脆， 说 明 西 瓜 还 不 够 
熟 ， 禹 击 声 " 沉 问 ,说明 西瓜 成 熟 度 好 ， 更 甜 更 好 


吃 


2 基干 属性 与 概率 原则 挑选 西瓜 已 


朴素 风 叶 斯 算法 
P( 杯 扑 声音 清 用 ) 宇 有 
概率 大 2 


基于 概率 的 预测 1 和 p( 好 瓜 声 音 沉 问 ) 


中 http:Wwww.showmeaitechy 


所 以 ， 坏 西瓜 的 敲 击 声 是 " 清脆 ， 的 概率 更 大 ， 好 
西瓜 的 敲 击 声 是 ' 沉 问 , 的 概率 更 大 。 当 然 这 并 不 
选 地 沉 问 ,， 瓜 也 可 能 并 没 
这 就 是 噪声 了 。 当然， 在 实际 生活 中 ， 除 了 裔 
击 声 ， 我 们 还 有 其 他 可 能 特征 来 帮助 判断 ， 例 如 色 


泽 、 跟 蒂 、 品类 等 。 


朴素 贝 叶 斯 把 类 似 “' 敲 击 声 , 这 样 的 特征 概率 化 ， 

构成 一 个 “西瓜 的 品质 向 量 ， 以 及 对 应 的 “好 瓜 / 坏 
瓜 标签 ， ， 人 基于 统计 概率 的 好 
坏 瓜 模型 ， 这 些 模型 都 是 各 个 特征 概率 构成 的 。 


使 用 模型 判别 西瓜 的 好 坏 


朴素 风 叶 斯 算法 


TEA 


蜀 出 。 坏 瓜 概 率 司 


基于 概率 的 预测 


中 http/www.showmeaitechy 


这 样 ， 在 面 对 未 知 品质 的 西瓜 时 ， 我 们 迅速 获取 了 


特征 ， 分 别 输入 “好 瓜 模型 和 " 坏 瓜 模型 ， 得 
到 两 个 概率 值 。 如 果 “' 坏 瓜 模型 ， 输出 的 概率 值 大 
一 些 ， 那 这 个 瓜 很 有 可 能 就 是 个 坏 瓜 。 


2. 贝 叶 斯 公 陈 与 条 件 独 立 假设 


贝 叶 斯 定理 中 很 重要 的 概念 是 先 验 概 率 、 后 验 概率 
和 条 件 概 率 。 (天 于 这 部 分 依赖 的 数学 知识 ， 大 家 
可 以 但 看 ShowMeAI 的 文章 图 解 Al 数 学 基础 | 概率 
与 统计 ， 也 可 以 下 载 我 们 的 速 查 手 册 Al 知识 技能 速 
查 | 数学 基础 -概率 统计 知识 ) 


1 ) 先 验 概率 与 后 验 概率 


先 验 概率 : 事件 发 生前 的 预 判 概率 。 可 以 是 基于 历 
史 数 据 的 统计 ， 可 以 由 育 景 弟 识 得 出 ， 也 可 以 是 人 
的 主观 观点 给 出 。 一 般 都 是 单独 事件 概率 。 


举 个 例子 : 如 果 我 们 对 西瓜 的 色泽 、 根 蒂 和 纹 
理 等 特征 一 无 所 知 ， 按 照 冲 理 来 说 ， 四 瓜 是 好 
瓜 的 概率 是 60%。 那 么 这 个 概率 P (好 瓜 ) 融 
被 称 为 移 验 概率 。 


后 验 概率 : 事件 发 生 后 求 的 反 向 条 件 概率 。 或 者 


说 ， 基 于 先 验 概 率 求 得 的 反 向 条 件 概率 。 概 率 形式 
与 条 件 概率 相同 。 


举 个 例子 : 假如 我 们 了 解 到 判断 西瓜 是 否 好 瓜 
的 一 个 指标 是 纹理 。 一 般 来 说 ， 纹 理 清 晰 的 西 
瓜 是 好 瓜 的 概率 大 一 些 ， 大 概 是 75%。 如 果 把 
纹理 清晰 当 作 一 种 结果 ， 然 后 去 推测 好 瓜 的 概 
率 ， 那 么 这 个 概率 P (好 瓜 | 纹 理 清 晰 ) 就 被 称 
为 后 验 概率 。 


条 件 概率 : 一 个 事件 发 生 后 另 一 个 事件 发 生 的 概 
率 。 一 般 的 形式 为 P(B1A)P(BIA) P(BIA) 表 示 A 
A A 发 生 的 条 件 下 B B B 发 生 的 概率 。 


由 友 
条 件 概率 PCB|4) 吗 
事件 A 已 经 发 生 的 前 棍 下 ， 事 件 B 发 生 的 概率 到 
朴素 风 叶 斯 算法 
PC4B) 吕 

P(CB14) = PC 


| _) 福 这 | 微 信 ShowMeAl 研 究 中 心 


2 ) 贝 叶 斯 公式 

简单 来 说 ， 贝 叶 斯 定理 (Bayes Theorem， 也 称 贝 
叶 斯 公式 ) 是 基于 假设 的 先 验 概 率 、 给 定 假 设 下 观 
察 到 不 同 数据 的 概率 ， 提 供 了 一 种 计算 后 验 概率 的 


方法 。 在 人 工 智 能 领域 ， 有 一 些 概率 型 模型 会 依托 
于 贝 叶 斯 定理 ， 比 如 我 们 今天 的 主角 "朴素 贝 叶 斯 
模型 ，。 


全 


朴素 风 叶 斯 算法 


pg 2 


P(B) 是 B 的 先 验 概率 / 边 绿 概率 
也 作 标准 化 常量 (normalized constant | 


。P(A) P(A) P(A) 是 先 验 概率 ， 一 般 都 是 人 主观 
给 出 的 。 贝 叶 斯 中 的 先 验 概率 一 般 特 指 它 。 


。P(B) P(B) P(B) 是 先 验 概率 ， 在 贝 叶 斯 的 很 多 
应 用 中 不 重要 ( 因为 只 要 最 大 后 验 不 求 绝 对 
值 ) ， 需 要 时 往往 用 全 概率 公式 计算 得 到 。 


。P(BIA)PB'midA) P(BIA) 是 条 件 概率 ， 又 
叫 似 然 概率 ， 一 般 是 通过 历史 数据 统计 得 到 。 


“。P(AIB)PAsmidB) P(AIB) 是 后 验 概率 ， 一 
般 是 我 们 求解 的 目标 。 
3 ) 条 件 独立 假设 与 朴素 贝 叶 斯 


基于 贝 叶 斯 定理 的 贝 叶 斯 模型 是 一 类 简单 常用 的 分 


类 算法 。 在 “假设 待 分 类 项 的 各 个 属性 相互 独立 ， 
的 情况 下 ， 构 造 出 来 的 分 类 算法 就 称 为 朴素 的 ， 即 
朴素 贝 叶 斯 算法 。 


所 谓 ' 朴素 ， 是 假定 所 有 输入 事件 之 间 是 相互 独 
立 。 进 行 这 个 假设 是 因为 独立 事件 间 的 概率 计算 更 
简单 。 


朴 系 贝 叶 斯 模型 的 基本 思想 是 : 对 于 给 定 的 待 分 类 
项 X{al,a2,a3,…,anlXNeft 
a_1,a_2,a_ 3…,a_nNvighty Xfa1,a2,a3…,an}，, 求 
解 在 此 项 出 现 的 条 件 下 各 个 类 别 yi y_i yi 出 现 的 概 
率 , 哪个 P(yilX)Ply ilx) PilX) 最 大 ， 就 把 此 
寺 分 类 项 归属 于 哪个 类 别 。 


朴素 贝 叶 斯 算法 的 定义 为 : 设 X{a1,a2,a3，,… 
n}XAMeftM a_1,a_ 2,a 3…anxrighty X{a1,a2 

ns 25an} 为 一 个 待 分 类 项 ， 每 个 ai a_f{fi ai 为 x 的 一 
个 特征 属性 ， 且 特征 属性 之 间 相 互 独立 。 设 Cfy1 
,yY2,yY3,…,ynlcnefNMy 1y 2y 3…y_n 

Vighty Cfy1,y2,y3,…,ym} 为 一 个 类 别 集 合 ， 计 算 P ( 
六 必 人 人 PS 区 人 
Pieft(ty_{1} Amid Xighti, PNeft(y_{2) Amid Xight)， 
PNleft(y_{3} Amid Xighti, Ndots, PNleft(y_{n} Amid 义 


xight) P(y1|X),P(y2|IX),P(y3IX)……,P(ynlX)。 


PCYykilX)=max{fPy1iXx)，P(y2|X) ,PCY 
3IX),.…，,，P(ynlXx)}Peft(y {kl mid Xight)= 
Mmax MIeftMPNeft(y_{T mid Xight),， PNleft(y_{2) 
mid Xight), PNeft(y_{9} Amid Xighti, ldots，P 
Meft(y_{n} mid Xight)ightN P(yklX)=max{P(y1 
区),PGy2IX),P(y3IX)……POynlX))} 


则 X eseykXnNiny {klXeyk 


条 二 由 关 本 通 2 
别 y: 出 7 
思 
基本 思想 8 末 于 个 pv|X) 最 大 ， 埋 把 此 待 分类 项 归属 干 嘟 个 类 别 。 局 
朴素 风 叶 斯 算法 
， 设 Xfau as aan 为 一 个 待人 类 项 ， 每 个 ar 为 x 的 一 个 特征 属性 ， 号 


0 

朴素 风 叶 斯 算法 ” 设 CDuyz, ya 略为 一 个 类 别 集合 
人 ,PCOm| 人 1 
ax[POa1ND,POa1ND,POalzD…POmlXj 则 和 


索 信 ShowMeAl 


要 求 出 第 四 项 中 的 后 验 概率 P(yklX) PNeft(y_{k) 
mid Xight) P(ykIX)， 就 需要 分 别 求 出 在 第 三 项 中 
的 各 个 条 件 概率 ， 其 步骤 是 : 


。 找到 一 个 已 知 分 类 的 待 分 类 项 集合 ， 这 个 集合 
叫做 训练 样本 集 


。 统计 得 到 在 各 类 别 下 各 个 特征 属性 的 条 件 概率 
估计 。 即 


OPLafly1),P(a2ly1),…，,，P(an 
|y1) PNeft(a _{1) midy fright)，P 
Meft(a_{2} mid y_{1Night), Xcdots，P 
Meft(a_{n} mid y_{Night) P(aflly1),P(a2 
jy1)…Ptanly1) 

OPL(afly2),P(a2ly2),… ,P(an 

|y2) PNeft(a_{1) mid y {2}right)，P 

Meft(a_{2} mid y_{2}Night), Xcdots,，P 

Meft(a_{n} \mid y_{2}Night) P(afly2),P(a2 

|y2)…,P(anly2) 


OPL(aflyn),P(a2lyn),… ,，P(an 
yny) PNeft(a_{1) mid y {nyright)，P 
Meft(a_{2} mid y_{n}ight), Xcdots，P 
Meft(a_{n} mid y_{n}Night) P(aflym),P(a2 
lym)…”PGanlynm) 


POxli = maxfPOalDD，POz122， POsl2…，POmlD)， 则 X e 区 


三 


朴素 风 叶 斯 算法 


s 
P ,PCaa| 六 ) ,PCan 了 
(al5) PCazlyD) (Can|y) 撞 到 一 个 已 知 分 类 的 待人 类 项 集合 沁 


Pailyz) PCazly2) ,PCan|lyz) 这 个 集合 叫做 训练 样本 集 
统计 得 到 在 各 类 别 下 各 个 特征 属性 
的 条 件 概率 估计 


[QQ 过 | 微 


PCaalpoD PCazly) ,PCanlo) 


ShowMeAl 研 究 中 心 | 


在 朴素 贝 叶 斯 算法 中 ， 待 分 类 项 的 每 个 特征 属性 都 


是 条 件 独立 的 ， 由 贝 叶 斯 公式 


P(UyilX)=P(Xlyi)P(yi)P(X) PNeftty 全 
mid Xvighb=\frac{fPNeft(X \mid y fijvight) P 
Meft(y_{NrightDJP(GX)) PilX)=P(X)P(XlyD)P(yi) 


因为 分 母 相 当 于 在 数据 库 中 X X X 存 在 的 概率 ， 所 
以 对 于 任何 一 个 待 分 类 项 来 说 P ( X ) PNeft(X Vight) 
P(X) 都 是 常数 固定 的 。 再 求 后 验 概率 P(yilX)P 
Meft(y 全 mid Xvight) P(yilX) 的 时 候 只 用 考虑 分 子 
即 可 。 


因为 各 特征 值 是 独立 的 所 以 有 : 


民 光 | 攻 梧 下 代 党 全 语 攻 (本 二 全 全 2 和 
(anlyi)PCyiD)=PCYiDIDi=1nPLajlyi) 
begin{faligned} PNeft(X \mid y_{fDNright) P 
Meft(y_{fNright) &=PNeft(a_{ mid y_ 人 right) P 
Meft(a_{2} mid y_{ 人 Night cdots PNleft(a_{n} mid 
y_f 人 right) PNeft(y_ 人 Night N\&=PNeft(y_{DNright) 
\prod 1=1}^(n} PNeft(a_ 人 mid y_ 人 right) 
\end{aligned} P(Xlyi)P(yD)=P(a1lyb)P(a2lyi)…P(anlyi 
)P(yD=P(yibj=1IInP(ajlyi) 


可 以 推出 : 


P(Xlyi)=TJk=1nP(aklyi)Peft(X mid 
y_firight)=\prod_{{k=1}}A{(ny PNeft(a_{kl mid 
y fijvight) P(Xlyi)=k=1TTnP(aklyi) 


POx = maxf POnlD，POzl2， POsl0…，POnLO ]， 则 Xe 了 到 
中 叶 斯 公式 POi1D = 于 0。 男 定 常数 
朴素 风 叶 斯 算法 人 区 
汉 吕 
PCKIy)POn) = PCailyi)PCazlba)…PCanlyDPO) 
=PODITIPCol) 
汉 


PCDD = | | Pouly 
CD 时 人 0D9| 人 C 接 吉 | 谷 信 ShowMeAl 研究 中 心 


对 于 P(yi) PNeft(y_{ijvight) P(yi) 是 指 在 训练 样本 
中 yiy 全 yi 出 现 的 概率 ， 可 以 近似 的 求解 为 : 


P(Uyi) =|yilD PNeftty firight=\fracfNefi 
y_fightID} Pib=Diyi 


对 于 先 验 概率 P(ajlyi) Peft(a 分 mid y 癸 
vight ) P(ajlyi)， 是 指 在 类 别 yi y_ 全 yi 中 ， 特 征 元 
素 aja_ 颁 ai 出现 的 概率 ， 可 以 求解 为 : 


P(ajlyi)=| 在 训练 样本 为 yi 时 ，aj 出 现 
的 次 数 ||1yi 训 练 样 本 数 | PNeft(a 人 Amid 
y 全 Night ) = racfNeft | 在 训练 样本 为 y 位 时 ， 
a_ 全 出现 的 次 数 Yight | Jeft | y_ 全 训练 样本 数 
vight | } P(ajlyi)=lyi 训 练 样 本 数 || 在 训练 样本 为 yi 


时 ，aj 出 现 的 次 数 | 


ja 

POxlB = maxfPOxliD， PO2zlX)， POs10D…，POmIX)， 则 X e 其 可 
etlyD PomD 

X|i) POyi 上 

朴素 风 叶 斯 算法 RH oO iD aa 
汐 4 本 

SO ， 加 


PetboD=[ [Pupo 
大 一 1 


人 _ | 在 训 系 样本 为 站 时 ， 出 现 的 次 数 | 
2 [于 样 产 
| 人 检索 | 微 信 ShowMeAl 研 究 中 心 | 


总 结 一 下 ， 朴 素 贝 叶 斯 模型 的 分 类 过 程 如 下 流程 图 
所 示 : 


准备 工作 阶段 


朴素 风 叶 斯 算法 


-时 


对 每 个 类 别 计算 P( S 
- 林 秦 


分 类 器 训练 阶段 


应 用 阶段 以 PCxl?i)PG5 最 大 项 
作为 xz 所属 类 别 


心 httpW/www.showmeaitechy 


3. 伯 努 利 与 多 项 式 朴素 贝 叶 斯 


1 ) 多 项 式 vs 人 努 利 朴 素 贝 叶 斯 


大 家 在 一 些 资料 中 ， 会 看 到 "多项式 朴素 贝 叶 斯 ， 
站 伯 努 利 朴 素 贝 叶 斯 ， 这 样 的 细 分 名 称 ， 我 们 在 
这 里 基于 文本 分 类 来 给 大 家 解释 一 


em 

四 | 更 

< 多 项 式 朴素 贝 叶 斯 VS. 伯 努 利 朴素 风 叶 斯 名 

朴素 内 叶 斯 算法 判断 (测试 ) 时 考虑 重复 词语 问 
统计 (训练 ) 时 


统计 (训练 ) 时 


考虑 重复 词语 


利 疡 (这 ) 时 不 才 志 和 订 证 全 全 ShowMeA1 研 究 中 心 | 


不 考虑 重复 词语 
伯 努 利 模型 


中 httpy/www.showmeaitechy 


在 文本 分 类 的 场景 下 使 用 朴素 贝 叶 斯 ， 那 对 应 的 特 
征 aj a_j aj 就 是 单词 ， 对 应 的 类 别 标签 就 是 yy y ， 
这 里 有 一 个 问题 : 每 个 单词 会 出 现 很 多 次 ， 我 们 对 
于 频次 有 哪些 处 理 方法 呢 ? 


。 如 果 直 接 以 单词 的 频次 参与 统计 计算 ， 那 就 是 
多 项 式 朴素 贝 叶 斯 的 形态 。 


。 如果 以 是 否 出 现 (0 和 1) 参 与 统计 计算 ， 就 是 伯 
努 利 朴素 贝 叶 斯 的 形态 。 


CD 
文本 分 类 | 多 项 式 朴素 贝 叶 斯 V.S. 伯 努 利 朴 素 风 叶 斯 


朴素 风 叶 斯 算法 


多 项 式 朴素 由 时 斯 


全 有 e 全 和 


类 ec 下 单词 总 雪 
EEC 


类 c 下 单词 克 在 各 个 文档 中 出 现 过 的 次 数 之 和 十 明 


类 ec 下 文件 总 数 
2 一幕 个 训 弥生 本 的 文件 & 娄 人 |9 一 


类 c 下 单词 让 在 各 个 文档 中 出 现 过 的 次 数 之 和 十 1 
区 5 下 单词 昌 数 十 2 
伯 努 利 朴素 由 叶 斯 了 得 索 | 微 信 ShowMeAl 研 究 中 心 


个 httpWwww.showmeaitechy 


(1) 多 项 式 朴素 贝 叶 斯 


以 文本 分 类 为 例 ， 多 项 式 模型 如 下 。 在 多 项 式 模型 


中 ， 设 某 文 档 d=(t1,t2,，.. ,tk)d=efttt {1)， 
t_{2}, dots,t_{kjvightb) d=(t1t2, .tk) ，tkt {k] tk 
是 该 文档 中 出 现 过 的 单词 ， 人 允许 重复 , 则 : 


P(c)= 类 c 下 单词 总 数 整 个 训练 样本 的 单 

词 总 数 PNeft (c Night ) = Yrac{ 类 c 下 单词 总 数 }{ 整 
个 训练 样本 的 单词 总 数 } P(c)= 束 个 训练 样本 的 单词 
总 数 类 c 下 单词 总 数 


类 条 件 概率 


ee 类 c 下 单词 tk 在 各 个 文档 中 出 
过 的 次 数 之 和 +1 类 c 下 单词 总 数 +|VI 
PNleft (t {k} \mid c Vight ) = rac{ 类 c 下 单词 t_{k} 在 
各 个 文档 中 出 现 过 的 次 数 之 和 +1}{ 类 c 下 单词 总 数 + 
Meft | V Vight |) Ptklc)= 类 c 下 单词 总 数 +|V| 类 c 下 单 
词 tk 在 各 个 文档 中 出 现 过 的 次 数 之 和 +1 


。V VV 是 训练 样本 的 单词 表 ( 即 抽取 里 词 ， 申 
词 出 现 多 次 只 一 个 ) 号 | V | Mefft V vight 
|IV 则 表示 训练 样本 包 2 


。P(tklc) PNeft(t {k} mid c vight ) Pltklc) 可 


以 看 作 是 单词 t k t_{k} tk 在 证 明 d d d 属 于 类 c 
cc 上 提供 了 多 大 的 证 据 ,而 P(c)PAeft(c 
vight ) P(c) 则 可 以 认为 是 类 别 c c c 在 整体 上 占 
多 大 比例 ( 有 多 大 可 能 性 ) 。 


(2 ) 伯 努 利 朴素 贝 叶 斯 


对 应 的 ， 在 伯 努 利 朴 素 贝 叶 斯 里 ， 我 们 假设 各 个 特 
征 在 各 个 类 别 下 是 服从 n 重 伯 努 利 分 布 〈 二 项 分 布 ) 
的 ， 因 为 伯 努 利 试验 仅 有 两 个 结果 ， 因 此 ， 算 法 会 
首先 对 特征 值 进 行 二 值 化 处 理 〈 假设 二 值 化 的 结 
为 1 与 0 ) 。 


对 应 的 P(c)PnNeft(cxright ) PC 和 P(tklc)P 
Meft (t_{k} mid c vight ) Pltklc) 计 算 方式 如 下 ( 注 
意 到 分 子 分 母 的 变化 ) : 


P(c)= 类 c 下 文件 总 数 整个 训练 样本 的 文 
件 总 数 PNeft(c Night )=\rac{ 类 c 下 文件 总 数 }{ 整 
个 训练 样本 的 文件 总 数 } P(c)= 整 个 训练 样本 的 文件 
总 数 类 c 下 文件 总 数 


P(tklc)= 类 c 下 单词 tk 在 各 个 文档 中 出 
现 过 的 次 数 之 和 +1 类 c 下 单词 总 数 +2P 
Meft (t {k} \mid c vight ) = rac{ 类 c 下 单词 t {k} 在 各 


个 文档 中 出 现 过 的 次 数 之 和 +1}{ 类 c 下 单词 总 数 +2} 
Pltklc)= 类 c 下 单词 总 数 +2 类 c 下 单词 在 各 个 文档 中 
出 现 过 的 次 数 之 和 +1 


2 ) 朴 系 幢 叶 斯 与 连续 值 特征 


我 们 发 现在 之 前 的 概率 统计 方式 ， 都 是 基于 离散 值 
的 。 如 果 遇 到 连续 型 变量 特征 ， 怎 么 办 呢 ? 


以 人 的 身高 ， 物 体 的 长 度 为 例 。 一 种 处 理 方式 是 : 
把 它 转换 成 离散 型 的 值 。 比 如 : 


。 如 果 身 高 在 160cm 以 下 ， 特 征 值 为 1 ; 
。 在 160cm 和 170cm 之 间 ， 特 征 值 为 2 ; 
。 在 170cm 之 上 ， 特征 值 为 3。 


当然 有 不 同 的 转换 方法 ， 比 如 还 可 以 : 


。 将 身高 转换 为 3 个 特征 ， 分 别 是 1、f2、f3 ; 

。 如 果 身 高 是 160cm 以 下 ， 这 三 个 特征 的 值 分 别 
是 1、0、0 ; 

。 若 身高 在 170cm 之 上 ， 这 三 个 特征 的 值 分 别 是 
0 


但 是 ， 以 上 的 划分 方式 ， 都 比较 粗糙 ， 划 分 的 规则 


也 是 人 为 拟定 的 ， 且 在 同一 区 间 内 的 样本 (比如 第 1 
变换 规则 下 ， 身 高 150 和 155 ) 难以 区 分 ， 我 们 有 
高 斯 朴素 贝 叶 斯 模型 可 以 解决 这 个 问题 。 


如 果 特 征 xi x_ 全 xi 是 连续 变量 ， 如 何 去 估 计 似 然 度 
P(xilyky) PNeft (x_{fimid y {k} vight ) P(xilyk) 
呢 ? 高 斯 模型 是 这 样 做 的 : 我 们 假设 在 yiy_ 全 yi 的 
条 件 下 ，Xx x x 服 从 高 斯 分 布 〈( 正 态 分 布 ) 。 根 据 正 
态 分 布 的 概率 密度 浮 数 即 可 计算 出 P(xlyi) PNeft 
(xmid y fj Yight ) P(xly)， 公 式 如 下 : 


P(xilyk)=12maoyk,i2e-(xi-Hhyk,i)2 
20Gyk,i2Peft(x 全 midy {kjvight=\frac{1)} 
fsdrt{2 \pi \sigma_{y Kk, 让 ^A{2)} e^{Afrac 人 (left(x_ 全 - 
mu_{fy k, iight)^(2})2 \sigma_{y k, (2 P(xilyk 
)=2TOYKk,i2 

1e 
-2Gyk,i2(Xi-Hyk;i)2 


岛 
5 朴素 风 叶 斯 与 连续 值 特征 


朴素 风 叶 斯 算法 Ge 


PCxilDx) = 


| 
莱 


- 

本 

了 高 斯 模型 假设 每 一 维特 征 都 

oz 服从 高 斯 分 布 ( 正 态 分 布 ) 局 

xi 表示 类 别 为 加 的 样本 中 ， 第 ;维特 征 的 均值 

和 表示 类 别 为 的 样本 中 ， 第 [ 维特 征 的 均值 
| 〇 O 夫 索 | 微 信 ShowMeA1 研 究 中心 | 


回 到 上 述 例子 ， 如 果 身 高 是 我 们 判定 人 性 别 〈 男 / 

女 ) 的 特征 之 一 ， 我 们 可 以 假设 男性 和 女性 的 身高 
服从 正 态 分 布 ， 通 过 样本 计算 出 身高 均值 和 方差 ， 
人 有 了 
密度 级 数 ， 遇 到 新 的 身高 值 就 可 以 直接 代入 ， 算 出 
密度 弛 效 的 值 。 


4. 平 消 处 理 


1 ) 为 什么 需要 平滑 处 理 


使 用 朴素 贝 叶 斯 ， 有 时 候 会 面临 零 概率 问题 。 零 概 
率 问 题 ， 指 的 是 在 计算 实例 的 概率 时 ， 如 果 某 个 量 
x X Xx， 在 观察 样本 库 〈 训练 集 ) 中 没有 出 现 过 ， 会 
导致 整个 实例 的 概率 结果 是 0。 


在 文本 分 类 的 问题 中 ， 当 一 个 词语 没有 在 训练 样 
本 中 出 现 , 时 ， 这 个 词 基于 公式 统计 计算 得 到 的 条 
件 概率 为 0， 使 用 连 乘 计算 文本 出 现 概 率 时 也 为 0。 
这 是 不 合理 的 ， 不 能 因为 一 个 事件 没有 观察 到 就 武 
断 的 认为 该 事件 的 概率 是 0。 


2 ) 拉 普 拉 斯 平滑 及 依据 


为 了 解决 零 概 率 的 问题 ， 法 国 数学 家 拉 普 拉 斯 最 早 
提出 用 加 1 的 方法 估计 没有 出 现 过 的 现象 的 概率 ， 所 
以 加 法 平滑 也 叫做 拉 普 拉 斯 平滑 。 


假定 训练 样本 很 大 时 ， 每 个 分 量 x 的 计数 加 1 造成 的 
估计 概率 变化 可 以 忽略 不 计 ， 但 可 以 方便 有 效 的 避 
免 零 概 率 问 题 。 


对 应 到 文本 分 类 的 场景 中 ， 如 果 使 用 多 项 式 朴素 贝 

叶 斯 ， 假 定 特征 xi x_ 全 xi 表示 某 个 词 在 样本 中 出 现 
的 次 数 (当然 用 TF-IDF 表 示 也 可 以 ) 。 拉 普 拉 斯 平 

滑 处 理 后 的 条 件 概率 计算 公式 为 : 


P(xily)=Nyi+caNy+noPeft(x 全 Amid y 
xight) =\rac{N_{y ij+alphal{N_{y}+n alphal P(Xi 
|y)=Ny+noINyi+c 


| 
文本 分 类 | 使 用 多 项 式 朴素 贝 叶 斯 可 
权 普 权 斯 平滑 处 理 后 的 条 件 概率 计算 公式 于 
朴素 风 叶 斯 算法 。 yy 表示 类 y 的 所 有 样本 中 特征 x 的 特征 值 之 和 。 去 
， 心 表示 类 y 的 所 有 样本 中 全 部 特征 的 特征 值 之 和 。 司 
JWi 十 Q “表示 平滑 值 w E [04] ， 主 要 为 了 防止 训练 样本 中 基 个 特 绊 

P(zi | 世 = 下 7 。 生出 现 而 ww - 0 从 而 导 下 条 伯 梳 Pat 0 


的 情况 ,如 果 不 加 入 平滑 值 ， 则 计算 联合 概率 时 由 干 某 一 
让 
拉 普 拉 斯 平滑 及 依据 项 为 0 导致 后 验 概率 为 0 的 异常 情况 出 现 。 


，。 7 孙 示 特征 总 数 。| 人 楼 索 | 微 信 ShowMeAl 研 究 中 心 | 


。NyiN_{yi} Nyi 表 示 类 y y y 的 所 有 样本 中 特征 
xix 全 xi 的 特征 值 之 和 。 


。NYy N_{y}) Ny 表 示 类 y y y 的 所 有 样本 中 全 部 特 
征 的 特征 值 之 和 。 


。oQonalpha o 表 示 平 滑 值 Caoe [0,1]'valphaNin 
eft [ 0, 1 Yight ] ae [0,1]， 主 要 为 了 防止 训练 
样本 中 某 个 特征 没 出 现 而 导致 Nyi=0ON_{yi 
=0 Nyi=0， 从 而 导致 条 件 概率 P(xily)=0P 
veft(x_f 们 mid yvight) = 0 P(xily)=0 的 情况 ， 如 
果 不 加 入 平滑 值 ， 则 计算 联合 概率 时 由 于 某 一 
项 为 0 导致 后 验 概 率 为 0 的 异 弟 情况 出 现 。 


。n n n 表 示 特 征 总 数 。 


更 多 监督 学 习 的 算法 模型 总 结 可 以 查看 ShowMeAI 
的 文章 Al 知识 技能 速 查 | 机 器 学 习 - 监 督学 习 。 


ShowMeAlI 相 关 文 章 推荐 


。1. 机 器 学 习 基 础 知识 

。 2. 模 型 评估 方法 与 准则 
。 3.KNN 算 法 及 其 应 用 

。 14. 逻辑 回归 算法 详解 

。5. 朴 系 贝 叶 斯 算法 详解 
。 6. 决 梨 树 模型 详解 


。 7. 随 机 森林 分 类 模型 详解 
。8. 回 归 树 模型 详解 

。 9.GBDT 模 型 详解 

。 10.XGBoost 模 型 最 全 解析 
。11.LightGBM 模 型 详解 

。 12. 支 持 向 量 机 模型 详解 

。 13. 聚 类 算法 详解 

。 14.PCA 降 维 算 法 详解 


ShowMeAl 系 列 教程 推 荐 


。 图解 Python 编程 : 从 入 门 到 精通 系列 教程 

。 图 解数 据 分 析 : 从 入 门 到 精通 系列 教程 

。 图 解 Al 数学 基础 : 从 入 门 到 精通 系列 教程 

。 图解 大 数据 技术 : 从 入 门 到 精通 系列 教程 

。 图 解 机 器 学 习 算法 : 从 入 门 到 精通 系列 教程 


Sh@w Me Al 


司 解 机 器 学 习 | 决策 树 模型 详 


原文 : https:Wblog.csdn.net/ShowMeAIl/ 
article/details/123399487 
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决策 树 (Decision Tree ) 是 机 器 学 习 中 一 种 经 典 的 
分 类 与 回归 算法 。 在 本 篇 中 我 们 讨论 用 于 分 类 的 决 
策 树 的 原理 知识 。 决 策 树 模型 呈 树 形 结 构 ， 在 分 类 
问题 中 ， 一 颗 决策 树 可 以 视 作 if-then 规则 的 集合 。 
模型 具有 可 读 性 ， 分 类 速度 快 的 特点 ， 在 各 种 实际 
业务 建 模 过 程 中 广泛 使 用 。 


(本 篇 内 容 会 涉及 到 不 少 机 器 学 习 基 础 知识 ， 没 有 
先 序 知识 储备 的 宝宝 可 以 查看 ShowMeAI 的 文章 
解 机 器 学 习 | 机 器 学 习 基础 知识 。 


1. 拆 沉 树 算法 核心 思想 


1 ) 决 委 树 结构 与 核心 思想 


决策 树 (Decision tree ) 是 基于 已 知 各 种 情况 〈 特 
征 取 值 ) 的 基础 上 ， 通 过 构建 树 型 决策 结构 来 进行 
分 析 的 一 种 方式 ， 是 常用 的 有 监督 的 分 类 算法 。 


决策 树 模型 (Decision Tree model ) 模拟 人 类 决 
策 过 程 。 以 买 衣服 为 例 ， 一 个 顾客 在 商店 买 裤 子 ， 
于 是 有 了 下 面 的 对 话 : 


顾客 : 什么 材料 ? 


材料 一 
售货员 : 牛仔 下 

顾客 : 裤 型 修身 吗 ? 

型 

售货员 : 修身 邮 | 

| 顾客 : 有 L 码 中 尺寸 

售货员 : 有 的 | 

顾客 : 价钱 是 和 多少? ss 

La | 0 


CPP httpWwwwshowmeaitech/ 


决策 树 是 一 种 预测 模型 ， 代 表 的 是 对 象 属性 与 对 象 
值 之 间 的 映射 关系 。 决 策 树 是 一 种 树 形 结构 ， 其 
中 : 


。 每 个 内 部 结 点 表示 一 个 属性 的 测试 
。 每 个 分 支 表 示 一 个 测试 输出 
。 每 个 叶 结 点 代表 一 种 类 别 


决策 树 算法 详解 ee 


L 
| 内 部 结 点 (Node) | 
ES “于 | 分 支 (Branch) | 


@@ 人 R | 
结构 


中 httpwww.showmeaitechy 


如 上 图 买 衣服 的 例子 ， 第 一 个 “内 部 结 点 : 对 
应 于 属性 ' 材料 ， 上 的 测试 ， 两 个 分 支 分 别 是 
该 属性 取 值 为 牛仔， 和 非 牛仔 , 两 种 可 能 
结果 。 当 取 值 为 牛仔, 时 ， 则 对 下 个 属性 

锥 型 ! 进行 测试 ; 各 取 值 为 " 非 牛 仔 : 时 ， 


则 对 应 于 叶 结 点 不 买 。 


决策 树 模 型 核心 是 下 面 几 部 分 : 


。 结 点 和 有 向 边 组 成 。 
。 结 点 有 内 部 结 点 和 叶 结 点 俩 种 类 型 。 
。 内 部 结 点 表示 一 个 特征 ， 叶 结 点 表示 一 个 类 。 


更 
号 
学 习 过 程 : 多 
| 
通过 对 训练 样本 的 分 析 来 确定 “划分 属性 ” 
刁 根 结 点 (Root) 站 
重 aa ( 即 内 部 结 点 所 对 应 的 属性 ) 信 
分支 (Branech) 轴 
后 预测 过 程 : 
结构 由 人 识 全国 将 测试 示例 从 根 结 点 开始 ， 沿 着 划分 属性 所 
2 构成 的 “判定 测试 序列 "下行 ,直到 叶 结 点 
| 答 索 党 信 ShowMeAl 研 究 中 心 | 
中 http:Wwww.showmeaitechy 


2 ) 决策 树 的 发 展 史 


决策 树 在 发 展 过 程 中 ， 有 过 很 多 不 同类 型 的 模型 ， 
典型 的 模型 如 ID3、C4.5 和 CART 等 ， 下 面 我 们 来 简 
单 介绍 一 下 发 展 史 中 不 同 的 模型 。 


ClLs CLS (Concept Learning System) 是 最 早 的 决策 树 算法 。 号 
hs 本。 贸 
ip3 1ID3 是 主流 决策 树 算法 之 一 ， 基 干 信息 增益 进行 特征 选 树 和 树 的 生长 。 本 
决策 树 算法 详解 GO c45 是 Ip3 的 改进 基干 信息 增益 率 来 选 树 最 优 属性 。 5 
| 
CART 。 CART 是 可 用 干 分 类 与 回归 任务 的 二 叉 决策 树 ， 广 泛 使 用 。 楞 
RE RF (Random Forest， 随 机 森林 ) 是 把 决策 树 并 行 集成 的 组 合算 法 。 
决策 树 的 发 展 史 GBDT/XGBoost/LightGBM/catboost: boosting 系 列 模型 ， 可 以 基于 
树 模型 做 串 行 集成 。 人 福 过 | 签 信 ShowMeA1 研 究 中 心 
中 http:Wwww.showmeaitechy 


2. 决 各 树 生长 与 最 优 属 性 的 选 
择 


上 面 介 绍 的 决策 树 发 展 史 里 ， 大 家 对 于 不 同 的 决策 
树 模型 有 一 个 基础 的 理解 了 ， 下 面 一 部 分 ， 我 们 来 
一 起 看 一 下 决策 树 是 如 何 生长 构成 的 。 


1 ) 决策 树 生长 流程 


决策 树 的 决策 过 程 就 是 从 根 结 点 开始 ， 测 试 待 分 类 
项 中 对 应 的 特征 属性 ， 并 按照 其 值 选择 输出 分 文 ， 
直到 叶子 结 点 ， 将 叶子 结 点 的 存放 的 类 别 作为 决策 
结果 。 简 单 说 来 ， 决 策 树 的 总 体 流 程 是 自 根 至 叶 的 
递归 过 程 ， 在 每 个 中 间 结 点 寻找 一 个 上 划分 ， 
(Csplit or test ) 属性 。 


如 下 图 的 伪 代 码 ， 是 详细 的 决策 树 生 长 〈 构建 ) 流 
程 。 大 家 可 以 特别 注意 图 中 3 类 终止 条 件 和 返回 的 结 
果 ， 而 整个 流程 中 ， 有 非 党 核心 的 一 步 是 最 优 划 
分 属性 的 选择 , 。 


停止 条 件 (1) 情 形 | 停止 条 件 (2) 情 形 全 上 条件 (3) 情 起 
递归 返回 递归 返回 递归 返回 “ 惠 


DC Cr 
性 信人 | 
ww et 

1: 


王 同 
将 node 让 丰 Ta 利 前 当 前 结 点 的 


苞 
拉 二 妇 
决策 树 算法 详解 2 记 ao 人 
66: 将 ne 由 二 结 点 ， eturn 
7: end 放 
决策 树 算 法 的 核心 


下 
CR 忆 为 叶 结 点 ,其 类 别 标记 为 妈 中 样本 最 条 的 类 ; returg 


将 父 结 点 的 样本 分 布 作为 
了 。 当前 结 点 的 共 验 人 布 


3: els 
14: 以 TreeGenerate(D,4\fa. 为 介 支 结 点 
: 0 


让 
GP httpywwwshowmeaitech 尺 node 和 的 一 棵 决策 树 


决策 树 停止 生长 的 三 个 条 件 : 


ES 
停止 条 件 (1) 当前 结 点 包含 的 样 全 属于 同一 类 别 。 无 需 划 分 。 区 
决策 树 算法 有 
停止 条 件 (2) 样本 的 属性 取 值 都 相同 或 属性 集 为 空 。 不 能 划分 。 交 
停止 条 件 (3) 当前 结 点 包含 的 样本 集合 为 空 。 不 能 划分 。 


了 搜索 | 微 信 ShowMeAl 研 究 中 心 


他 http://www showmeaitechy 


2 ) 最 优 属 性 选择 


下 面 我 们 来 看 看 ， 决 策 树 的 最 优 划 分 属性 选择 ， 
怎么 做 的 。 


(1 ) 信息 箭 


要 了 解决 策 树 的 “最 优 属 性 , 选择 ， 我 们 需要 先 了 
解 一 个 信息 论 的 概念 “信息 (Centropy ) : 〈 相 
关 知 识 可 以 参考 ShowMeAI 文 章 图 解 Al 数学 基础 | 
信息 论 ) ， 它 是 消除 不 确定 性 所 需 信息 量 的 度量 ， 
也 是 未 知事 件 可 能 含有 的 信息 量 ， 可 以 度量 样本 集 


合 "纯度 ， 


对 应 到 机 器 学 习 中 ， 假 定 当前 数据 集 D D D 中 有 y y 
y 类 ， 其 中 第 k k k 类 样本 占 比 为 p k p_{k} pk， 则 信 
息 灼 计算 公式 如 下 : 


Ent(D)=->K=1lylpklog 2pkEnt(D)=- 
\Sum_{K=1}^Aleft | y right | } pP_{ky Nog_{2}{p_{k}} 
Ent(D)=-K=12 lylpklog2pk 


En 
D 的 信息 粮 
假定 当前 样本 集合 D 中 共有 y 类 ， 其 中 第 k 类 样本 所 占 的 比例 为 六 可 
决策 树 算法 详解 上 
加 ] 
计算 信息 箭 时 约定 : 
二 国 
Ent(D) 之 z log2 Pr 0 
。 Ent(D) 的 最 小 值 为 0， 最 大 值 为 logzly 
。 Ent(D) 的 值 越 小 ， 则 D 的 “纯度 " 越 高 

| 虽 索 | 微 信 ShowMeAl 研 究 中 心 | 


但 p k p_{k} pk 取 值 为 1 的 时 候 ， 信 息 灶 为 0 ( 很 显 
然 这 时 候 概 率 1 表示 确定 事件 ， 没 有 任何 不 确定 
性 ) ; 而 当 pk p_{k} pk 是 均匀 分 布 的 时 候 ， 信 息 类 
取 最 大 值 log (|yl) Nog(lyl) loglly) (此 时 所 有 候选 
同等 概率 ， 不 确定 性 最 大 ) 。 


(2 ) 信息 增 蔓 


大 家 对 信息 有 了 解 后 ， 我 们 就 可 以 进一步 了 解 信 
息 增 益 〈 Information Gain ) ， 它 衡量 的 是 我 们 选择 


某 个 属性 进行 划分 时 信息 灶 的 变化 (可 以 理解 为 基 
于 这 个 规则 划分 ， 不 确定 性 降低 的 程度 ) 。 


Gain (D,a)=Ent(D)->v=1vIDvlID| 
Ent (DYv ) operatorname{fGain}(D, a)= 
operatorname{Enti(D)A\sum_{v=1)^(V) racfNleft| 
D^(vjNrightIID| 
operatorname{Enthleft(DA{V}right) 
Gain(D,a)=Ent(D)-v=12VvIDIIDvIEnt(DV) 


信息 增益 (ID3 中 使 用 ) 二 
离散 属性 。 的 取 值 fal,a2, aa …,az]j; DP : 样本 集合 D 中 在 n 上 取 值 =az 的 样本 集合 型 
决策 树 算法 详解 人 郑 个 分 赤 的 权重 区 
大 1Dz?| 样本 越 来 越 重 要 章 
尺 员 性 s 对 如 权 D 过 行 和 分。 Gain(D, = Ent(D) - 》 DIEmtom 。。 男 

所 获得 的 信息 增益 V=1 


信息 增益 -ID3 划分 前 的 信息 粮 。 。 划分 后 的 信息 箭 


人 搜索 | 微 信 ShowMeAl 研 究 中 心 ] 


中 httpWwww.showmeaitechy 


言 息 增益 描述 了 一 个 特征 带 来 的 信息 量 的 多 少 。 在 
决策 树 分 类 问题 中 ， 信 息 增 益 就 是 决策 树 在 进行 属 
性 选择 划分 前 和 划分 后 的 信息 差 值 。 典 型 的 决策 树 
算法 ID3 就 是 基于 信息 增益 来 挑选 每 一 节点 分 支 用 于 
划分 的 属性 (特征 ) 的 。 


这 里 以 西瓜 效 据 集 为 例 。 


。 数据 集 分 为 好 瓜 、 坏 瓜 ， 所 以 | y1= 2 |y|=2 


|y|=2。 

。 根 结 点 包含 17 个 训练 样 例 ， 其 中 好 瓜 共 计 8 个 
样 例 ， 所 占 比 例 为 8/17。 

。 坏 瓜 共计 9 个 样 例 ， 所 占 比例 为 9/17。 


将 数据 带 入 信息 灶 公 式 ， 即 可 得 到 根 结 点 的 信息 
灶 。 


多 3 全 要 芝 大 亡 人 理 月 部 前 语 。 好 肥 | 
1 青果 兹 缩 油 明 清晰。 四 陷 更 油 。 是 根 节点 的 信息 彤 旨 
3 17 个 训练 样 例 ， 结 果 2 个 类 别 到 


决策 树 算法 详解 : 息 


醒 潘 
稍 四 。 软 粘 和 nt(D) 一 -> 1og 
稍 回 。 加 站 后] 
| 
ml=2m = sm-9007 国 


全 
eeD= -人 (和 e+ 芒 og] 


姨 。 浊 响 稍 四 和 软 粘 。 否 二 
音 缩 油 响 模糊 平坦 柄 激 亚 | 六 地 表 0 | 
台 缩 。 沉 央 稍 凹 。 硬 温 。 否 搜索 | 向 企 ShowMeA1 研究 中 心 | 

案例 来 源 : 同志 华 老 师 《机 器 学 习 ? 西瓜 数据 集 


信息 增益 示例 


末 涨 昌 举 丰 涨 洲 础 由 p 
希 正 攻 中 簿 下 中 和 菠 犯 酒 疙 


5 http/www.showmeaitechy 


以 属性 "色泽 为 例 ， 其 对 应 的 3 个 数据 子 集 : 


。D1( 色 泽 = 青 绿 )D1( 色 泽 = 青 绿 ) D1( 色 泽 = 
青绿 ) , 包含 {1,4,6,10,13,17} ，6 个 样 例 ， 其 中 
好 瓜 样 例 为 {1,4,6jNeftM 1,4,6 vight 
{1,4;,6}， 比 例 为 46， 坏 瓜 样 例 为 {10 , 13 ,17 
} NMeft M 10,13,17 Night \ 110,13,17} ,比例 为 
3/6。 将 数据 带 入 信息 灶 计 算 公 式 即 可 得 到 该 结 
点 的 信息 灶 。 


“D2( 色 泽 = 乌 黑 ) D2( 色 泽 = 乌 黑 ) D2( 色 泽 = 


乌黑 ) ,包含 {2 ,3,7,8,9,15}Neftx 
2,3,7,8,9,15 Night \ {2,3,7,8,9,15}，6 个 样 

例 ， 其 中 好 瓜 样 例 为 {12,3,7,81}Neft\ 
2,3,7,8 vight \ {2,3,7,8} ,比例 为 4/6， 坏 瓜 样 
例 为 {9 ,15 } Meft M 9,15 Night \ {9,15}， 比 例 
为 2/6。 将 数据 带 入 信息 灶 计 算 公 式 即 可 得 到 该 
结 点 的 信息 灶 。 


。D3( 色 泽 = 浅 和 白 )D3( 色 泽 = 浅 白 ) D3( 色 泽 = 
浅 白 ) ,包含 15 , 11 ,12 , 14 , 16 } Neft Y 
5,11,12,14,16 \ight \}) {5,11,12,14,16}，5 个 样 
例 ， 其 中 好 瓜 样 例 为 15} Neft M 5 Vight \ 

{5}， 比例 为 115， 坏 瓜 样 例 为 {11, 12 ,14 ， 
16 } left M 11,12,14,16 Night \ 
{11,12,14,16}， 比例 为 4/5。 将 数据 带 入 信息 灶 
计算 公式 即 可 得 到 该 结 点 的 信息 灶 。 


加 乱 s。 色 漂 根 荣 需 疡 你 理 月 部 触感 。 好 及 品 
en 1 青 染 。 毕 缩 。 油 啊 。 清 帅 四 陷 。 醒 肖 色泽 属性 的 信息 炉 到 
2 才 又 编 沉 站 清晰 四 险 柄 油 是 
3 3 时 禁 编 洱 响 清晰 四 陷 醒 温 是 17 个 训练 样 例 ， 结 果 3 个 类 别 可 
青绿 疫 缩 。 沉 关 清晰。 四 陷 条 天 
共 十 寺 弄 白 至 缩 浊 员 清 果 四 陷 醒 汕 是 虹 
决策 树 算法 详解 计 归 “和 姨 沙 胃 清晰 利加 软 帮 是 EntCD) 一 一 mr10gzpe 
二 稍 雍 油 响 和 类 稍 四 。 软 沾 。 是 会 所 
SS 村 稍 鱼 油 响 清 呆 稍 四 硕 滑 。 是 人 一 | 
和 汪 汽 加 各 久 和 机油 在 Ent(DD 一 一 人 ee 二 ae -10 哆 
青绿 看 插 清风 清晰 平坦 软 粘 否 
浇 白 清脆 模糊 平坦 醒 汕 理 4 4 2 了 宛 
庵 白 浊 响 模 贿 平坦 软 粘 疆 mr(p9] 一 (和 ae 和 ne 人 )=o918 
二 青绿 浊 响 。 稍 戎 四 陷 看 油 。 柯 
信息 增益 示例 小 白 。 稍 涪 。 沉 站 。 稍 糊 。 四 陷 。 柄 江 Ent(Da] 一 -人 fi 和 es 区-o722 
当 导 和 销 终 油 啊 清晰 稍 岂 软 丫 否 - 5 上 本 
多 六 用 术 闻 也 是 有 有 于 | 人) 要 索 | 微 信 ShowMehl 研 究 中 心 | 
CC httpVwwwshowmeaitechy 志 华 老师 《机 器 学 习 ? 西 瓜 数据 集 


色泽 属性 的 信息 增益 为 : 


@ 多 3 色 汪 要 入 敌 疡 多 理 卫 部 山 感 季风 加 
Er 1 。 青 强 ”至 缩 。 浊 响 。 清 听 四 陷 。 醒 温 是 色泽 属性 的 信息 增益 
2 ss 晨 二 次 沉 自 清 灯 四 陷 醒 泪 。 是 名 
3 3 党 吉 绾 油 响 清晰 四 陷 而 测 。 是 17 个 训练 样 例 ， 结 果 3 个 类 别 鄙 
青绿 帮 缩 。 沉 回 清晰。 四 陷 到 江 是 
< 中 5 浇 白 旦 缩 浊 响 清晰 四 陷 醒 沁 是 
决策 树 算法 详解 6 青绿 梢 磅 ， 油 响 清 灯 入。 软 由 是 所 
SEN 二 catn(D, 色 泽 )= 5t(D)- > 名 nt(D) 加 
8 里 泣 洋 油 响 清晰 利加。 柄 涡 是 产 
9 3 二 稍 纵 沉 四 和 精 类 和 梢 由 醒 测 在 辆 
10 青绿 看 插 清脆 清晰 平坦 软 丫 否 =0.998- 外 x1000+ 和 x0sl8+ 总 xo722] 
站 
12 沸 自 主编 油 响 模糊 平阳 软 巾 否 -0109 
手 13 青 录 和 铺 丸 池 响 稍 糊 四 陷 到 油 。 
信息 增 蔓 示 例 14 并 旧 稍 泣 沉 站 。 稍 类 四 陷 硬 泪 。 否 
1 和 汪 油 是 清晰 各 加 软 巾 在 
洪 自 “ 友 缩 。 浊 响 。 模 冉 平坦。 横江。 否 | 广 ) 地 去] 央 亿 
记 再生 此 总 元 辐 秆 涯 ， 条 问 天 尖 看 | 人 人 搜索 | 微 信 ShowMeAl 研 究 中 心 


httpVwwwshowmeaitech/ 案例 来源 : 同志 华 老 师 《机 丝 学 习 ) 西瓜 数 握 信 


同样 的 方法 ， 计 算 其 他 属性 的 信息 增益 关 


器 多 色泽 “根系 页 记 二 理 本 部 凶 千 。 好 有 | 

Ne-r 才 1 青绿 驶 编 油 啊 洁 电 四 陷 硬 油 是 其 他 属性 的 信息 增益 
2 9 黑 亚 纪 沉 间 消 断 四 隐 硬 江 是 各 
3 9 黑 坚 编 油 啊 清 听 四 陷 硬 油 是 17 个 训练 样 例 ， 结 果 3 个 类 别 史 
4 青绿 拉 詹 沉 固 。 洒 电 四 隐 硕 浊 是 5 

、 、 

决策 树 算法 详解 村) oo? 
7 9 黑 稍 风 油 啊 前 副 稍 四 软 粘 。 是 天 信息 增益 最 大 名 
as 和 洋 油 哺 污 果 利加 柄 油 是 Gain(D, 根 六 )-0143 人 
9 9 黑 稍 妖 沉 四 冰 训 生硬 漠 。 耕 被 选 为 划分 属 f 
0 青绿 硬 报 ”清脆 。 消 呆 平坦 软 粘 否 Gait(D, 胡 声 ) = 0.141 
11 小 白 “ 硬挺。 清 胞 “ 视 冉 平坦 硬 滑 香 
入 和 纹 由 法 W 人 汪 二 竹下 条 站 二 二 委 生 Goin(D 纹 理 ) 一 0381 

1 青绿 稍 姨 浊 响 ”并 关 。 四 陷 。 硬 沿 理 

信息 增益 示例 1 条 此 AS SMW 天 省 二。 coi(D, 及 部 )= 0289 
15 9 黑 稍 纤 洱 啊 河和 四 加 站 耕 - 
6 小 自 “ 扣 缩 油 响 横 痢 平 直 硕大“ 香 人 和 窟 千 58wweAi 研 究 中 心 
再 绿 。 蜂 编 这 站 莉 种 。 稍 凹 看 洛 否 证 

CC httpywwwshowmeaitechy 案例 来 源 : 同志 华 老 师 《机 器 学 习 ?西瓜 数据 集 


对 比 不 同属 性 ， 我 们 发 现 纹理, 信息 增益 最 大 ， 
其 被 选 为 划分 属性 : 清晰 11,2,3,4,5,6,8， 
10 , 15 } Neft M 1,2,3,4,5,6,8,10,15 Vight Y 
{1,2,3,4,5,6,8,10,15}、 稍 糊 {17 ,9 ,13 ,14 ,17】 
Meft M 7,9,13,14,17 Vight \ 17,9,13,14,17}、 模 糊 { 
11, 12 , 16 } Meft M 11,12,16 Night \ 111,12,16}。 


再 往 下 一 步 ， 我 们 看 看 纹理， = 清晰, 的 节点 
分 支 ， 该 节点 包含 的 样 例 集合 D1 中 有 编号 为 {1 , 2 
,3,4,5,6,8,10,151}NeftY 
1.2,3,4,5,6,8,10,15 vight y 11,2,3,4,.5,6,8,10,15} 共 


计 9 个 样 例 ， 可 用 属性 集合 为 { 色 泽 , 根 蒂 , 敲 声 ， 
章 部 ,触感 }NleftX 色泽 , 根 蒂 , 敲 声 , 脐 部 ,触感 
vight \} { 色 泽 , 根 蒂 , 艇 谣 , 脐 部 ,触感 } ( 此 时 “ 纹理， 
不 再 作为 划分 属性 ) ， 我 们 同样 的 方式 再 计算 各 属 


性 的 信息 增益 类 


国 含 号 色 汪 要 各 页 声 铸 理 前 部 出 说 好 由 | 
SR 1 青绿 总 绾 油 遇 清晰 四 陷 硬 泪 。 是 纹理 = 清晰 江 
2 9 黑 整编 沉 由 清晰 四 陷 三 温 。 是 光 
扫 时 。 杰 缩 油 响 清晰。 四 陷 硕 油 是 各 属性 的 信息 增益 到 
4 青绿 灵 缩 沉 因 清晰 四 陷 硬 洪 。 呈 了 

A 二: 亏 白 控 清晰 加 | 是 
决策 树 算法 详解 6 2 生 S 2 路 4 是 Gain(D, 色 泽 ) - 0.043 朗 
7 9 时 稍 几 油 明 稍 糊 各 四 软 巾 是 图 
己 黑 。 稍 线 。 油 啊 清晰。 稍 岂 。 硬 滑 是 本 
时 稍 滋 沉 间 利明。 和 思 柄 泪 。 否 丽 

青 保 看 括 。 污 用 尘 果 平坦。 软 粘 。 否 

浅 白 ”看 省 清 脸 平坦 。” 醒 滑 否 
的 人 Cain(D, 肝 部) 0.458 由 

13 青绿 稍 嫌 。 油 响 ” 稍 棚 ”四 隐 ”三 涓 理 

二 人 咏 触 感 ) 一 0. 
信息 增益 示例 人 请 9。 作为 划分 必 任 

记 二 汪汪 - 妥 | 办 要 索 | 微 信 ShowMeAl 研 究 中 心 | 
中 http:Wwww-showmeaitechy 案例 来 源 : 同志 华 老师 g 机 器 学 习 } 西 瓜 数据 集 


从 上 图 可 以 看 出 “ 根 蒂 ，、“ 脐 部 ， 、“ 触感 ，3 个 
属性 均 取 得 了 最 大 的 信息 增益 ， 可 用 任 选 其 一 作为 
划分 属性 。 同 理 ， 对 每 个 分 支 结 点 进行 类 似 操 作 ， 
即 可 得 到 最 终 的 决策 树 。 


决策 树 算法 详解 本 二 


乌有 人 


对 每 个 介 支 结 点 做 进一步 划分 
信息 增益 示例 上 最 终 得 到 决策 树 


上 甩 过 | 六 位 ShowMeAl 研 究 中 心 


中 http/www.showmeaitechy 


(3 ) 信息 增益 率 (Gain Ratio ) 


大 家 已 经 了 解 了 信息 增益 作为 特征 选择 的 方法 ， 但 


言 息 增益 有 一 个 问题 ， 它 偏向 取 值 较 多 的 特征 。 原 
因 是 ， 当 特征 的 取 值 较 多 时 ， 根 据 此 特征 划分 更 容 
易 得 到 纯度 更 高 的 子 集 ， 因 此 划分 之 后 的 粒 更 低 ， 
由 于 划分 前 的 灶 是 一 定 的 。 因 此 信息 增益 更 大 ， 
此 信息 增 荔 比较 偏向 取 值 较 多 的 特征 。 


那 有 没有 解决 这 个 小 问题 的 方法 呢 ? 有 的 ， 这 就 是 
我 们 要 提 到 信息 增益 率 ( Gain Ratio ) ， 信 息 增 益 
率 相 比 信息 增益 ， 多 了 一 个 衡量 本 身 属 性 的 分 散 程 
度 的 部 分 作为 分 母 ， 而 闭 名 的 决策 树 算 法 C4.5 就 是 
使 用 它 作 为 划分 属性 挑选 的 原则 。 


言 息 增 益 率 的 计算 细节 如 下 所 示 : 


Gain -ratio (D,a)=Gan(D,a)IV (al) 
operatorname{Gain} {-} \operatorname{fratio}(D， 
a)=\fracf\operatorname{Gain}(D, al)} 
foperatorname{IV}(a)} Gain-- 
ratio(D,a)=IV(a)Gain(D,a) 


IV(a)=->2>Vv=1VvVIDvIIDIlog 21IDvlID| 
IV(a)=-、\Sum_{v=1}^(V racfAleftIDA{vArightI 人 ID|]) 
Mog _{2} racfAeftIDA{v}Nrightlf DIV(a)=-v=12V 
IDIIDvllog2IDIIDy| 


信息 增益 率 (C4.5 中 使 用 ) 四 
离散 属性 " 的 取 值 fa a?, aa,…,ar]; DY : 样本 集合 D 中 在 " 上 耶 值 =ar 的 样本 集合 于 


决策 树 算法 详解 Comrauoa 四 -Can 


人 汪 
一 | 
二 压 
史 lp lpol 启发 式 : 先 从 候选 划分 属性 中 
1y(a) = 一 面 1ogz 历 | 乒 出 信息 增益 高 二 平均 水 平 的 ， 
z21 再 从 中 选取 增益 率 最 高 的 。 


信息 增益 率 -C4.5 


属性 a 的 可 能 取 值 数目 越 多 ( 即 v 越 大 )， 则 IV(o) 而 下 本 大 人 ShowMeAi 研究 中 心 ] 


中 httpWwww.showmeaitechy 


数学 上 用 于 信息 量 (或 者 纯度 ) 衡量 的 不 止 有 上 述 
的 焙 相 关 的 定义 ， 我 们 还 可 以 使 用 基尼 指数 来 表示 
效 据 集 的 不 纯度 。 基 尼 指 数 越 大 ， 表 示 数 据 集 越 不 
纯 。 


基尼 指数 (Gini Index ) 的 详细 计算 方式 如 下 所 示 : 


Gim (DJ)= 记 ksTIy| KKPKPK' =1 = 
k=1lylpk2'\operatornamefGini}(D)=\sum_{k=1) 
^{yl} sum_{fk \prime \neq k}) P_{k) P_{k^prime}} 
=1->sum_{k=1Ay pP_tkl^2) Gini(D)=k=12 ylk' 
=k pkpk=1-k=12 ylpk2 


一 
基尼 指数 (CART 中 使 用 ) 时 
离散 属性 a 的 取 值 ata2, aa,…,ar]}; DY : 样本 集合 D 中 在 < 上 取 值 =o 的 样本 集合 守 
决策 树 算法 详解 加 加 -。 反映 了 从 p 中 随机 柚 取 两 个 样 例 ， 其 类 别 标记 全 
Gini(D) = 》 》 mpr = 1- 》 肛 不 一致 的 概率 吕 

下 9 。 Gini(D) 越 小 , 数据 集 D 的 纯度 越 高 


属性 " 的 基尼 指数 Gmi_index(D,a) = Ganip 

基尼 系数 -CART 

系数 在 候选 属性 集合 中 ,选取 那个 使 划分 后 基尼 指数 最 小 的 
/搜索 | 微 信 ShowMeAl 研 究 中 心 


中 http:Wwww.showmeaitechy 


其 中 ，pk p_k pk 表示 第 k k k 类 的 数据 占 总 数据 的 


比例 ， 著 名 的 决策 树 算 法 CART 就 是 使 用 基尼 指数 
来 进行 划分 属性 的 挑选 (当然 ，CART 本 身 是 二 
树 结 构 ， 这 一 点 和 上 述 的 ID3 和 C4.5 不 六 一样 ) 。 


对 于 基尼 指数 的 一 种 理解 方式 是 ， 之 所 以 它 可 以 用 
作 纯 度 的 度量 ， 大 家 可 以 想象 在 一 个 漆黑 的 袋 里 摸 
球 ， 有 不 同 颜色 的 球 ， 其 中 第 k 类 占 比 i 作 p k P_k 
pk， 那 两 次 摸 到 的 球 都 是 第 k 类 的 概率 就 是 p k 2 
pP_k^2 pk2， 那 两 次 摸 到 的 球 颜色 不 一 致 的 概率 就 是 
1- 二 pk21-zp _k^2 1-zpk2， 它 的 取 值 越 小 ， 两 
次 摸 球 颜 色 不 一 致 的 概率 就 越 小 ， 纯 度 就 越 高 。 


3. 过 拟 合 与 剪 枝 


如 果 我 们 让 决策 树 一 直 生 长 ， 最 后 得 到 的 决策 树 可 
能 很 庞大 ， 而 且 因为 对 原始 数据 学 习 得 过 于 充分 会 
有 过 拟 合 的 问题 。 缓 解决 策 树 过 拟 合 可 以 通过 草 枝 
操作 完成 。 而 草 枝 方式 又 可 以 分 为 : 预 剪 枝 和 后 草 
术 。 


1 ) 决 各 树 与 勇 术 操作 


为 了 尽 可 能 正确 分 类 训练 样本 ， 有 可 能 造成 分 支 过 
多 ， 造 成 过 拟 合 。 过 拟 合 是 指 训练 集 上 表现 很 好 ， 


但 是 在 测试 集 上 表现 很 差 ， 沁 化 性 能 差 。 可 以 通过 
甬 枝 主动 去 掉 一 些 分 支 来 降低 过 拟 合 的 风险 ， 并 使 
用 " 留 出 法 , 进行 评估 和 甬 枝 前 后 决策 树 的 优 劣 。 


基本 策略 包含 “ 预 筋 枚 , 和 后 剪 核 , 两 个 : 


。 预 剪 校 (pre-pruning ) : 在 决策 树 生 长 过 程 
中 ， 对 每 个 结 点 在 划分 前 进行 估计 ， 若 当前 结 
点 的 划分 不 能 带 来 决策 树 沁 化 性 能 的 提升 ， 则 
停止 划分 并 将 当前 结 点 标记 为 叶 结 点 。 


。 后 剪 枝 (post-pruning ) : 先 从 训练 集 生 成 一 
颗 完 整 的 决策 树 ， 然 后 自 底 向 上 地 对 非 叶 结 点 
进行 考察 ， 若 将 该 结 点 对 应 的 子 树 替 换 为 叶 结 
点 能 带 来 决策 树 沁 化 性 能 的 提升 ， 则 将 该 子 树 
蔡 换 为 叶 结 点 。 


2 ) 预 筋 术 与 后 航 术 案例 


我 们 来 看 一 个 例子 ， 下 面 的 数据 集 ， 为 了 评价 决策 
树 模 型 的 表现 ， 会 划分 出 一 部 分 数据 作为 验证 集 。 


加 编写 色泽 根 蒂 南 疡 纹理 阴 部 。 豚 感 。 好 肥 | 
2 1 青绿 束 缩 油 员 清晰 四 敬 硬 潮 。 是 由 
2 9 黑 此 痪 沉 四 清晰 四 陷 硕 油 是 名 
3 93 黑 整 缩 油 响 清晰 四 洛 硬 洪 。 是 EN 
6 青绿 稍 姓 油 响 清晰 稍 四 软 粘 。 是 注意 ， 引 
、 沙 j 7 9 黑 稍 给 浊 了 。 稍 炎 。 稍 凯 软 巾 。 是 要 
决策 树 算法 详解 10 青绿 看 扳 清 疮 清晰 平坦 软 丫 和 否 训练 集 由 干 划分 出 了 验证 集 过 
14 小 提 稍 小 沉 四 。 稍 半 凹陷 而 油 。 碍 所 
15 9 黑 稍 滋 油 响 清晰 稍 思 软 丫 。 否 ， 生 成 此 处 决策 树 所 呈 
漠 白 。 茜 绾 浊 啊 模糊 平坦 站 滑 。 大 ev 
青绿 疫 缩 。 沉 各 。 稍 精 < 使 用 的 数据 与 前 面 生 
再 妇 。 坚 绾 沉 同 清晰。 四 陷 看 油 是 成 决策 树 所 使 用 的 数 
浅 白 恋 深 浊 响 清晰 四 隐 顶 泪 是 
乌黑 稍 嫩 。 浊 响 。 清 昕 。 稍 凹 。 硬 测 。 是 据 不 同 。 
S 黑 。 稍 溢 。 沉 由 。 稍 业 栅 站 和 埋 验证 集 
沪 白 “硬性 车 上 模糊 平 志 醒 滑 大 
浅 白 。 帮 缩 。 油 响 。 模 业 软 丫 。 否 | 捷 搜 索 | 微 们 
青绿。 稍 红 。 浊 响 。 稍 糊 四 隐 。 醒 淤 看 k 提 索 | 微 信 ShowMeAi 研究 中 心 | 


案例 来 源 : 周志 华 老师 《机 器 学 习 》 西 孜 数据 集 


在 上 述 西瓜 数据 集 上 生成 的 一 颗 完整 的 决策 树 ， 如 
下 图 所 示 。 
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在 上 述 西瓜 数据 集 上 
生成 的 一 颗 完 整 的 决策 树 


微 信 ShowMeAl 研 究 中 心 


中 http:Wwww.showmeaitechy 


(1 ) 预 剪 术 


- 预 剪 校 , 过 程 如 下 : 将 其 标记 为 叶 结 点 ， 类 别 标 
记 为 训练 样 例 中 最 多 的 类 别 。 


。 若 选 "好 瓜 ， ， 验 证 集中 {4,5,8} 被 分 类 正确 ， 
得 到 验证 集 精 度 为 3/7X100%=42.99%6 


。 根 据 结 点 @@Q@ 的 训练 样 例 ， 将 这 3 个 结 点 分 
别 标记 为 “好 瓜 ， 、 上 好 瓜 ，、 上 坏 瓜 : 。 此 
时 ， 验 证 集中 编号 为 {4,5,8,11,12} 的 样 例 被 划 


分 正确 ， 验 证 集 精度 为 507x100%=71.49%6 


O 〇 结 点 2 (好 瓜 ) : 分 类 正确 : {,5}]， 分 类 

错误 : {13} 

O 结 点 3 (好 瓜 ) : 分 类 正确 : {8}， 分 类 错 
误 : {9] 

O 结 点 4( 坏 瓜 ) : 分 类 正确 : {11,12} 


am 
Co 更 
hs 日 
Ra 
嗓 
> 法 j 编号 色泽 根 薪 需 声 纹理 膀 部 。 出 感 。 好 的 
六 
央 策 树 算法 详解 本 3 
5 浅 自 综 编 浊 响 清 断 四 隐 本 中 。 是 | 
# 9 黑 稍 络 油 响 清晰 航 凹 硬 泪 。 是 国 
9 3 黑 稍 缮 沉 站 和 类 和 四 磺 温和 否 验证 集 

浇 白 清 唯 。 模糊 醒 光 

浅 白 模糊 软 粘 

青绿 。 稍 弱 。 油 响 。 稍 糊 。 四 陷 。 醒 光 
人 搜索 | 微 信 ShowMeA1 研 究 中 心 | 


各 划分 后 的 验证 集 精度 下 降 ， 则 拒绝 划分 。 对 结 点 
四 四 自分 别 进行 航 柜 判断 ， 结 点 包 @ 都 禁止 划分 ， 
结 点 @@ 本 身 为 叶子 结 点 。 


根据 预 剪 术 方 法 ， 此 处 生成 了 一 层 决 策 树 。 这 种 最 
终 得 到 仅 有 一 层 划分 的 决策 树 ， 称 为 决策 树桩 ， 


(decision stump ) 。 


决策 树 算法 详解 


、 丙 前 村 决策 : 禁止 划分 / 、、 预 秽 棱 决 策 : 禁止 划分 


号 2 索 | 微 信 ShowMeAlI 研 究 中 心 


(2 ) 后 航 枝 
我 们 在 生成 的 完整 决策 树 上 进行 “后 剪 核 」 : 


。 用 验证 集 的 数据 对 该 决策 树 进 行 评 估 ， 样 例 { 
4,11,12j}NeftM4,11,12 Night \ 14,11,12} 分 
类 正确 ， 而 样 例 15,8 ,9 ,131}Neft\5,8,9,13 
vight \} {5,8,9,13} 分 类 错误 ， 此 时 的 精度 为 
42.9%6。 


当 对 该 决策 树 进行 后 剪 枝 ， 结 点 @ 的 标记 为 好 
瓜 ， 此 时 样 例 14,8,11, 121NeftM4,8,11,12 
vight \ {4,8,11,12} 分 类 正确 ， 样 例 {15 ,9 , 13 
} Meft 5,9,13 Vight \ 15,9,13} 分 类 错误 ， 精 度 
为 57.19%6。 


筋 术 后 的 精度 提升 了 ， 因 此 该 决策 树 需 要 在 结 点 @ 
处 进行 航 械 。 


决策 树 算法 详解 


3 诗 
二 一  、、 、 细 一 
和 动 和 (和 9 名 
青绿 一 包罗 人 、 注 白 
和 | 人 上 


全 租 。 丘 间作 盖 | i 人 二 showweal 研 究 中 心 


DT 朋 生 人 全 下 


] 
人 
( 约 理 - ) 验证 集 精 度 沁 | 
936 


剪 核 后 : 57.1% 
\ 后 剪 枝 决 策 : 剪 枝 


考虑 结 点 @ 加 ， 若 将 其 替换 为 叶 结 点 ， 根 据 落 在 其 上 
的 训练 样 例 16 ,7 , 15 } Neft M 6,7,15 Night \} 

{f6,7,15} 将 其 标记 为 “好 瓜 4， ， 测 得 验证 集 精度 仍 为 
57.1%， 可 以 不 剪 枝 。 


1 
me aa 
1 ER 
日 一 3 


决策 树 算法 详解 


39 了 且 有 ee 人 A 芽 


放风、、 池 2 一 RD 5 
生出 抽 (和 ( 吉 
一 和、 渤 白 


- 员 
开 (色泽 -? ) 验证 集 精度 六 | 
剪 核 前 : 57.156 


1 前 核 后 : 57 1 


后 剪 枝 决 策 : 不 剪 村 


( 捍 过 | 微 信 ShowMeAI 研究 中 心 


考虑 结 点 @， 若 将 其 替换 为 叶 结 点 ， 根 据 落 在 其 上 
的 训练 样 例 11,2 ,3,14j}ANeftM 1,2,3,14 \ight 
{1,2,3,14} 将 其 标记 为 “好 瓜 ， ， 测 得 验证 集 精度 提 
升 至 71.4%， 决 定 剪 枝 。 


决策 树 算法 详解 


后 剪 枝 


中 http:Wwww.showmeaitechy 


DWYy 且 用 e 人 下 
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一 一 一 一 一 一 总 
一 (色泽 -? ) 验证 集 精 
草 梳 前 : 57.1%6 二 


剪 枝 后 : 71.4% 
后 剪 枝 决策 : 剪 枝 


? 喜 | 微 信 ShowMeAi 研究 中 心 


对 结 点 @@ 和 @， 知 将 其 子 树 蔡 换 为 叶 结 点 ， 


则 所 得 


决策 树 的 验证 集 精 度 分 布 为 71.4% 和 42.9%， 均 未 
提高 ， 所 以 不 剪 枝 。 得 到 最 终 后 剪 枝 之 后 的 决策 


树 O 


决策 树 算法 详解 


后 剪 枝 


中 http:Wwww.showmeaitechy 


一 ( 骂 各 -7 ) 虹 和 本 


和 一 轨 剪 枝 前 ; 71.4% | 
2 和 付 3O0 4 归 术 后: 42o%，。 轩 
8 一 人 后 前 核 决策 : 不 村 后 
一 一 一 一 一 囊 

泽 
(及 部-? ) 验证 入 精度 三 | 
浅 白 ie 本 

册 站: 71 
下 剪 核 后 : 71.4% 
后 剪 棱 决 策 : 不 前 村 


@@ 要 索 | 微 信 ShowMeAi 研 究 中 心 


3 ) 预 剪 术 与 后 萝 术 的 特点 


时 间 开 销 : 


。 预 航 术 : 
低 。 

。 后 剪 梳 : 
低 ， 


训练 时 间 开 销 降低 ， 测 试 时 间 开 销 降 


训练 时 间 开 销 增加 ， 测 试 时 间 开 销 降 


过 / 久 拟 合 风险 : 
。 预 和 剪 枝 : 过 拟 合 风险 降低 ， 欠 拟 合 风险 增加 。 
。 后 草 枝 : 过 拟 合 风险 降低 ， 欠 拟 合 风险 基本 不 


1 
Zo 


渤 化 性 能 : 后 剪 枝 通常 优 于 预 剪 枝 。 
4. 连 续 值 与 缺失 值 的 处 理 


1 ) 连续 值 处 理 


我 们 用 于 学 习 的 数据 包含 了 连续 值 特征 和 离散 值 特 
征 ， 之 前 的 例子 中 使 用 的 都 是 离散 值 属 性 〈 特 
征 ) ， 决 策 树 当然 也 能 处 理 连续 值 属 性 ， 我 们 来 看 
看 它 的 处 理 方式 。 


对 于 离散 取 值 的 特征 ， 决 策 树 的 划分 方式 是 : 选取 
一 个 最 合适 的 特征 属性 ， 然 后 将 集合 按照 这 个 特征 
属性 的 不 同 值 划分 为 多 个 子 集 合 ， 并 且 不 断 的 重复 
这 种 操作 的 过 程 。 


对 于 连续 值 属性 ， 显 然 我 们 不 能 以 这 些 离散 值 直接 
进行 分 散 集合 ， 否 则 每 个 连续 值 将 会 对 应 一 种 分 


类 。 那 我 们 如 何 把 连续 值 属 性 参与 到 决策 树 的 建立 
中 呢 ? 


因为 连续 属性 的 可 取 值 数目 不 再 有 限 ， 因 此 需要 连 
续 属 性 离散 化 处 理 ， 常 用 的 离散 化 策略 是 二 分 法 ， 
这 个 技术 也 是 C4.5 中 采用 的 策略 。 


具体 的 二 分 法 处 理 方式 如 下 图 所 示 : 


[1 

基本 思路 : 连续 属性 离散 化 琴 
加 
常见 做 法 : 二 分 法 (bipartitiom) 汪 

决策 树 算法 详解 。 .个 属性 值 可 形成 mi 个 候选 划分 
。 然后 即 可 将 它们 当做 n-1 个 离 淫 属 性 值 处 理 后 ES 人 中 


注意 : 与 离散 属性 不 同 ， 若 当前 结 点 划分 属性 为 连 
续 属 性 ， 该 属性 还 可 以 作为 其 后 代 结 点 的 划分 属 
性 。 


2 ) 缺失 值 处 理 


原始 数据 很 多 时 候 还 会 出 现 缺 失 值 ， 决 策 树 算法 也 
能 有 效 的 处 理 含 有 缺失 值 的 数据 。 使 用 决策 树 建 模 
时 ， 处 理 缺 失 值 需要 解决 2 个 问题 : 


。Q1 : 如 何 进行 划分 属性 选择 ? 


。Q2 : 给 定 划分 属性 ， 若 样本 在 该 属性 上 的 值 缺 
失 ， 如 何 进 行 划分 ? 


缺失 值 处 理 的 基本 思路 是 : 样本 赋 权 ， 权 重 划 分 。 
我 们 来 通过 下 图 这 份 有 缺失 值 的 四 瓜 数据 集 ， 看 看 
具体 处 理 方式 。 


仅 通 过 无 缺失 值 的 样 例 来 判断 划分 属性 的 优 擅 ， 学 
习 开 始 时 ， 根 结 点 包含 样 例 集 D 中 全 部 17 个 样 例 ， 
权重 均 为 1。 


。 根 结 点 选择 " 色泽 , 属性 时 ， 有 3 个 缺失 值 ， 
因此 样 例 总 数 为 14。 


。 此 时 好 瓜 样 例 为 12,3,4,6,7,81}Neft 
MY2,3,4,6,7,8vight Y {2,3,4,6,7,8} ,比例 为 
6/14， 坏 瓜 样 例 为 19 ,10 ,11 ,12 ,14,15， 
16 , 17 } Meft M 9,10,11,12,14,15,16,17 vight 
{9,10,11,12,14,15,16,17} ,比例 为 8/14。 


将 数据 带 入 信息 灶 计 算 公 式 即 可 得 到 该 结 点 的 信息 
灶 。 


且 下 


基本 思路 : 样本 峙 权 ， 1 


2 
厅 D 三 -之 1 且 站 皇 
| 
砚 


8 
三 人 082 :+ leg 评 


决策 树 算法 详解 


三 0.985 


搜索 | 微 信 ShowMeAl 研 究 中 心 | 


| 
呈 叫 喝 呈 鸣叫 久 叫 四 加 各 加 血 加 和 加 加 | 四 


中 http:Wwww.showmeaitechy 


令 D1-~xtildefDA{T D1~、D2~xtildefD^(2}} 
D2~、D 3 ~ xilde{D^{3}} D3~ 分 别 表示 在 属性 上 色 
泽 ， 上 取 值 为 “青绿 ， 乌黑, 以 及 上 浅 白 : 的 样 
本 子 集 : 


四 和 四 
0 色泽 = 青绿 Ent( 广 = 一 (log2 十 2log2 习 一 1.000 
到 

、 、 色泽 = 乌黑 Ent(D2)=- (+logo 二 二 2log2 习 一 0.918 本 
决策 树 算法 详解 人 ne rss 

色泽 = 浅 白 Ent( 广 3)= 一 (Siogz3 过 2log2 习 一 00o0 吕 


因此 ， 在 样本 集 ”cam(7, 包 泽 ) - Ent(D) 一 证 四 


上 属性 “色泽 ” = 0.985 一 民 x1000 4 二 X0918 十 计 二 xoo00) 
的 信息 精 增 益 为 二 人 Qia 这 | 训 全 ShowMteAT 研 究 中 心 | 


中 http:Wwww.showmeaitechy 


。D1~( 色 泽 = 青 绿 )NtildqefD^{1}} (色泽 = 青 
绿 ) D1~( 色 泽 = 青 绿 ) ,包含 {4,6,10,17) 
Meft M 4,6,10,17 Night \ 1{4,6,10,17}，4 个 样 
例 ， 其 中 好 瓜 样 例 为 14 ,6j}ANeftM 4,6 \ight 
{,6}， 比 例 为 204， 坏 瓜 样 例 为 {10 ,17 } Nileft 
MY 10,17 vight \ {10,17} ,比例 为 204。 将 数据 
带 入 信息 灶 计 算 公式 即 可 得 到 该 结 点 的 信息 
灶 。 


。D2~( 色 泽 = 和 乌黑 )xtildefD^{2}} (色泽 = 乌黑 ) 
D2~( 色 泽 = 乌 黑 ) ,包含 12,3,7,8,9,15)} 
Meft M 2,3,7,8,9,15 \ight \ {2,3,7,8,9,15}，6 个 
样 例 ， 其 中 好 瓜 样 例 为 {2,3,7 ,8]NleftY 
2,3,7,8 vight \ {2,3,7,8} ,比例 为 4/46， 坏 瓜 样 
例 为 {9 ,15 } Meft M 9,15 Night \ {9,15}， 比 例 
为 2/6。 将 数据 带 入 信息 录 计 算 公 式 即 可 得 到 该 
结 点 的 信息 灶 。 


。D3~( 色 泽 = 浅 和 白 ) Ntilde{D^{3}} (色泽 = 浅 白 ) 
D3~( 色 泽 = 浅 白 ), 包含 {11, 12 ,14, 16)} 
Meft M 11,12,14,16 \ight \ 111,12,14,16}，4 个 
样 例 ， 其 中 好 瓜 样 例 为 { 中 } Neft M \phi Night Y 
{ 中 }， 比 例 为 005， 坏 瓜 样 例 为 {11, 12 , 14 ， 
16 } NMleft M 11,12,14,16 Night \ 
{11,12,14,16}， 比 例 为 4/4。 将 数据 带 入 信息 暗 
计算 公式 即 可 得 到 该 结 点 的 信息 。 


于 是 ， 样 本 集 D 上 属性 色泽， 的 信息 增益 可 以 计 
算得 出 ，Gain(D ,纹理 )=0.424 信 息 增 益 最 大 ， 选 择 
纹理, 作为 接 下 来 的 划分 属性 。 


Gain(D, 色 洋 ) = 合 * coim n(D, 色 泽 ] = 疙 x0306- 0.252 
无 缺 矢 值 样 例 占 比 


首 人 二 


可 
决策 树 算 法 详解 
干 是 ,样本 集 D 上 属性 “色泽 ”的 信息 增益 为 恒 
Gain(D, 色 泽 ) = 0.252 Gain(D, 根 蒂 ) = 0.171 本 
Gain(D, 禹 声 ) = 0.145 信息 增 东 最 大 选择 “纹理 ” 
Gai(CD, 脐 部 ) = 0.289 Gain(D, 触 感 ) = 0.006 作 六 仿 T 来 的 划 介 属性 
类 似 地 可 计算 出 所 有 属性 在 数据 集 上 的 信息 增益 〇 ) 究 这 | 油 信 ShowMeAI 研究 中 心 
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更 多 监督 学 习 的 算法 模型 总 结 可 以 查看 ShowMeAI 
的 文章 Al 知识 技能 速 理 | 机 器 学 习 - 监 督学 习 。 


饮 频 教 程 
可 以 点 击 B 站 查看 视频 的 【双语 字幕 】 版 本 


【双语 字幕 + 资料 下 载 】MIT 6.036 | 机 器 学 习 导 论 
(2020. 完 整 版 ) 


【双语 字幕 + 资料 下 载 】MIT 6.036 | 机 器 学 习 
导论 (2020. 完 整 版 ) 


https:/www.bilibil.comAVideo/ 
BV1y44y187wN?p=12 


ShowMeAl 相 关 文 章 推荐 


。 1. 机 器 学 习 基 础 知识 

。 2. 模 型 评估 方法 与 准则 

。 3.KNN 算 法 及 其 应 用 

。 14. 逻辑 回归 算法 详解 

。5. 朴 素 贝 叶 斯 算法 详解 

。 6. 决 策 树 模型 详解 

。 7. 随 机 森林 分 类 模型 详解 
。8. 回 归 树 模型 详解 
。9.GBDT 模 型 详解 

。 10.XGBoost 模 型 最 全 解析 
。11.LightGBM 模 型 详解 

。 12. 支 持 向 量 机 模型 详解 
。 13. 聚 类 算法 详解 

。 14.PCA 降 维 算 法 详解 


ShowMeAl 系 列 教程 推 荐 


。 图 解 Python 编程 : 从 入 门 到 精通 系列 教程 

。 图 解数 据 分 析 : 从 入 门 到 精通 系列 教程 

。 图解 Al 数学 基础 : 从 入 门 到 精通 系列 教程 

。 图解 大 数据 技术 : 从 入 门 到 精通 系列 教程 

。 图 解 机 器 学 习 算法 : 从 入 门 到 精通 系列 教程 


Sh@w Me Al 


图 解 机 器 学 习 | 随机 和 森林 分 关 
模型 详解 


原文 : https:Wblog.csdn.net/ShowMeAIl/ 
article/details/123400295 


ShowMeAI 硬 核 A| 资 料 库 ， 用 知识 加 速 每 一 次 枝 术 成 长 


4 究 中 心 国 赋 ss 轩 sxs .上 国 全 so 便 [ 门 开 玫 ， 


作者 : 韩信 子 @ShowMeAI 

教程 地 址 : http:/www.showmeai.tech/tutorials/34 
本 文 地 址 : http:/www.showmeai.techyarticle- 
detail/191 

声明 : 版 权 所 有 ， 转 载 请 联系 平台 与 作者 并 注 明 出 


随机 森林 是 一 种 由 决策 树 构成 的 〈 并行 ) 集成 算 
法 ， 属 于 Bagging 类 型 ， 通 过 组 合 多 个 弱 分 类 器 ， 
最 终结 果 通 过 投票 或 取 均 值 ， 使 得 整体 模型 的 结 
具有 较 高 的 精确 度 和 沁 化 性 能 ， 同 时 也 有 很 好 的 稳 
定性 ， 广 泛 应 用 在 各 种 业务 场景 中 。 


随机 森林 有 如 此 优良 的 表现 ， 主 要 归功 于 " 随机 ， 
和 “ 和 森林, ， 一 个 使 它 具 有 抗 过 拟 合 能 力 ， 一 个 使 
它 更 加 精准 。 我 们 会 在 下 文中 做 更 详细 的 展开 讲 


解 。 


(本 篇 部 分 内 容 涉 及 到 机 器 学 习 基 础 知识 、 决 策 
树 、 回 归 树 算法 ， 没 有 先 序 知识 储备 的 宝宝 可 以 得 
看 ShowMeAI 的 文章 图 解 机 器 学 习 | 机 器 学 习 基 础 
知识 、 决 策 树 模 型 详解 及 回归 树 模型 详解 ) 。 


1. 集 成 学 习 


1 ) 集成 学 习 
学 习 随机 森林 ， 我 们 需要 先 了 解 一 些 概念 ， 比 如 第 1 


个 大 家 要 了 解 的 概念 是 集成 学 习 (ensemble 


Ilearning ) : 


个 体 学 习 器 Ci 这 


随机 森林 分 类 模型 个 体 学 习 器 C 


一 国务 
合 
策 
略 
Ensemble Learning 玉 


个 体 学 习 器 Cr 
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对 于 训练 数据 集 ， 我 们 训练 一 系列 “个 体 学 习 

器 ， 再 通过 ' 结合 策略 ， 将 它们 集成 起 来 ， 形 成 
一 个 更 强 的 学 习 器 ， 这 融 是 “集成 学 习 4 在 做 的 事 
情 ， 内 核 思想 类 似 “三 个 臭 皮 匠 ， 顶 个 诸葛 亮 ， 。 


2 ) 个 体 字 习 器 


个 体 学 习 器 是 相对 于 集成 学 习 来 说 的 ， 其 实 我 们 在 
之 前 了 解 到 的 很 多 模型 ， 比 如 C4.5 决 策 树 算法 、 逻 
辑 回 归 算 法 、 朴 素 贝 叶 斯 算法 等 ， 都 是 个 体 学 习 


1 
个 体 学 习 器 C、、 1 Yea8aN 
册 和 
个 体 学 习 器 ~ 结 1 As 王 G 作 作 
随机 森林 分 类 模型 和 ae |， 和 为 weaa 
下 -| 
个 休学 习 器 Cr -一 1 不休 党 恒 品 全 之 
1 
1 
同 质 集成 ; 只 包含 同 种 类 型 的 个 体 学 习 器 |。 导 质 集成 ; 包含 不 同类 型 的 个 体 学 习 器 
个 体 学 习 器 1 
| 个 体 学 习 器 称 作 * 基 学 习 器 ” 1 个 体 学 习 器 称 作 " 组 件 学 习 器 " 


| 加 禄 索 | 微 信 ShowMehl 研究 中 心 
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。 寿 集成 中 只 包含 同 种 类 型 的 个 体 学习 器 ， 叫 做 


同 质 , 集成 ， 个 体 学 习 器 称 作 “ 基 学 习 
器 」 。 例 如 随机 和 森林 中 全 是 决策 树 集成 。 


若 集成 中 包含 不 同类 型 的 个 体 学 习 器 ， 叫 做 


异 质 , 集成 ， 个 体 学 习 器 称 作 “组 件 学 习 
强 」 。 例 如 同时 包含 岂 策 树 和 神经 网 络 进行 集 


O 


站 


局 


个 体 学 习 器 代表 的 是 畦 个 学 习 器 ， 集 成 学 习 代表 的 


是 多 个 学 习 器 的 结合 。 


3 ) 集成 学 习 核 心 问题 


ea 

辐 呆 

Eee Lv www 纺 
全 人 


| 
硬 


随机 森林 分 类 模型 使 用 什么 样 的 个 体 学 习 器 ? 如 休 选 择 合 适 的 结合 策略 构建 看 学 习 器 2 
兄 

准确 性 并 行 组 合 方式 

两 个 核心 问题 多 样 性 传统 组 合 方式 
了 起 过 | 微 售 ShowMeAl 研 究 中 心 | 


中 httpwww.showmeaitechy 


(1 ) 使 用 什么 样 的 个 体 学 习 器 ? 


。 个 体 学 习 器 不 能 六 “ 弱 ， ， 需 要 有 一 定 的 准确 
性 。 
个 体 学 习 器 之 间 要 具有 ' 多 样 性 ， ， 即 存在 差 


异性 。 


(2 ) 如 何 选择 合适 的 结合 策略 构建 强 学 习 器 ? 

。 并行 组 合 方式 ， 例 如 随机 森林 。 

传统 组 合 方式 ， 例 如 boosting 树 模型 。 
2.Bagging 
我 们 在 这 里 讲 到 的 随机 森林 是 并 行 集成 模型 ， 而 
Bagging 是 并 行 式 集成 学 习 方法 最 著名 的 代表 。 


1) Bootstrap Sampling 


要 理解 bagging， 首 先 要 了 解 目 助 采 样 法 
(Bootstrap Sampling ) : 


随机 森林 分 类 模型 


DBV 同 呈 e 信和 


钨 租 


本 刘 刘 人 全 - 昌 昌 里 更 
委 索 | 短信 ,89WMeAl 研究 中 心 | 


给 定 包含 m m m 个 样本 的 数据 集 ， 我 们 先 随 
机 取出 一 个 样本 放 入 采样 集中 ， 再 把 该 样本 放 
回 初始 数据 集 ， 使 得 下 次 采样 时 该 样本 仍 有 可 
能 被 选 中 。 


。 上 述 过 程 重复 m_ m m 轮 ， 我 们 得 到 m m m 个 
样本 的 采样 集 ， 初 始 训练 集 中 有 的 样本 在 采样 
集中 多 次 出 现 ， 有 的 则 从 未 出 现 ， 约 63.2% 的 
样本 出 现在 采样 集中 ， 而 未 出 现 的 约 36.8?% 的 
样本 可 用 作 验 证 集 来 对 后 续 的 泛 化 性 能 进行 

“ 包 外 估计 , 。 


2)Bagging 


Bagging 是 Bootstrap aggregating 的 缩写 ， 是 在 
Boostrap Sampling 基 础 上 构建 的 ， 上述 的 采样 过 程 
我 们 可 以 重复 TTT 次 ， 采 样 出 TTT 个 含 m m m 
个 训练 样本 的 采样 集 ， 然 后 基于 每 个 采样 集训 练 出 


一 个 基 学 习 器 ， 然 后 将 这 些 基 学 习 器 进行 结合 。 


在 对 预测 输出 进行 结合 时 ，Bagging 通 常 对 分 类 任 
务 使 用 简单 投票 法 ， 对 回归 任务 使 用 简单 平均 法 ， 
这 就 是 Bagging 的 基本 流程 。 


: 
随机 森林 分 类 模型 
< 四 > 
:“ 目 国 一 
样 


Bootstrap aggregating 


洽 索 | 微 售 ShowMeA1 研 究 中 心 | 
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从 “偏差 -方差 分 解 , 的 角度 看 ，Bagging 主 要 关注 
降低 方差 ， 因 此 它 在 不 草 枝 的 决策 树 、 神 经 网 络 等 
易 受 到 样本 扰动 的 学 习 器 上 效用 更 明显 。 


3. 随 机 和 森林 算法 


1 ) 随机 和 森林 算法 介绍 


Random Forest ( 随机 和 森林， 简称 RF ) 是 一 种 基于 
树 模型 的 Bagging 的 优化 版 本 。 核 心思 想 依 旧 是 
Bagging， 但 是 做 了 一 些 独特 的 改进 RF 使 用 了 
CART 决 策 树 作 为 基 学 习 器 。 有 具体 过 程 如 下 : 


。 输入 为 样本 集 D={(x,y1),(x2,y2),，.. 
(xm,ym))D=NeftAeft(x, y_{1yNright)， 
Meft(x_{2}, y_{2Nright), NMdots left(x_{mh， 
y_{mjNight)rightNy D={(xy1),(X2,y2) (xm 
ymm) 


| 开放 2 让 25 


O 对 训练 集 进 行 第 ttt 次 随机 采样 ， 共 采集 
mm _m 次 ， 得 到 包含 mm m 个 样本 的 采 
样 集 DTD TDT。 


O 用 采样 集 DTD _T DT 训练 第 TTT 个 决 
策 树 模 型 GT(x)GQG_fT) (x) GT(x) ， 在 
训练 决策 树 模 型 的 万 点 的 时 候 ， 在 万 点 上 
所 有 的 样本 特征 中 选择 一 部 分 样本 特征 ， 
在 这 些 随机 选择 的 部 分 样本 特征 中 选择 一 
个 最 优 的 特征 来 做 决策 树 的 左右 子 树 划 


八 
人 


三 | 
又 


。 分 类 场景 , 则 TTT 个 基 模 型 (决策 树 ) 投 出 
之 
27 


5 
数 的 类 别 为 最 终 类 别 。 


= 
元 


轩 驮 四 国 国 卫 
倒 4 各 于 自由 
随机 森林 介 类 模型 是 

， BE 8 呈 半 记 


@ 人 国 国 国 四 
村 


Decision Tree 


2 ) 随机 森林 核心 特点 


随机 森林 核心 点 是 " 随机 ， 和 “ 和 森林， ， 也 是 给 尼 
市 来 良好 性 能 的 最 大 支撑 。 


7 随机, 主要 体现 在 两 个 方面 : 


。 样本 扰动 : 直接 基于 上 自助 采样 法 (Bootstrap 


Sampling ) ， 使 得 初始 训练 集中 约 63.2% 的 样 
本 出 现在 一 个 采样 集中 。 并 带 来 数据 集 的 差异 
化 。 


。 属性 扰动 : 在 随机 森林 中 ， 对 基 决 策 树 的 每 个 

结 点 ， 先 在 该 结 点 的 特征 属性 集合 中 随机 选择 

k 个 属性 ， 然 后 再 从 这 k 个 属性 中 选择 一 个 最 优 

属性 进行 划分 。 这 一 重 随机 性 也 会 市 来 基 模 型 
的 差异 性 。 

集成 ， 体现 在 : 根据 多 个 〈 差 异化 ) 采样 集 ， 训 


练 得 到 多 个 〈 差异 化 ) 决策 树 ， 采 用 简单 投票 或 者 
平均 法 来 提高 模型 稳定 性 和 汉化 能 力 。 


3 ) 随机 森林 决策 边界 可 钢化 


下 面 是 对 于 同一 份 数据 集 (iris 数 据 集 ) ， 我 们 使 用 
决策 树 和 不 同 树 棵 树 的 随机 森林 做 分 类 的 结果 ， 我 
们 对 其 决 寓 边界 做 了 可 视 化 。 


国语 


国 浊 


Showhe， 


随机 森林 分 类 模型 


5 显 决 策 树 的 25 颗 决策 树 的 
随机 森林 随机 森林 


单 颗 决 策 树 


可 以 很 明显 地 看 到 ， 随 着 随机 森林 中 快 策 树 数量 的 
增多 ， 模 型 的 沁 化 能 力 逐 渐 增 强 ， 决 策 边界 越 来 越 
趋 于 平滑 (受到 噪声 点 的 影响 越 来 越 小 ) 。 


4 ) 随机 森林 算法 优点 
下 面 我 们 来 总 结 一 下 随机 森林 的 优 缺 点 : 


(1 ) 随机 和 森林 优 点 


。 对 于 高 维 ( 特征 很 多 ) 稠密 型 的 数据 适用 ， 不 
用 降 维 ， 无 需 做 特征 选择 。 

。 构建 随机 森林 模型 的 过 程 ， 亦 可 帮助 判断 特征 
的 重要 程度 。 

。 可 以 借助 模型 构建 组 合 特征 。 

。 并 行 集成 ， 有 效 控制 过 拟 合 。 

。 工程 实现 并 行 简单 ， 训 练 速度 快 。 

。 对 于 不 平衡 的 数据 集 友 好 ， 可 以 平衡 误差 。 

。 对 于 特征 确实 鲁 棒 性 强 ， 可 以 维持 不 销 的 准确 
度 。 


(2 ) 随机 和 森林 缺点 


。 在 噪声 过 大 的 分 类 和 回归 数据 集 上 还 是 可 能 会 
过 拟 合 。 


。 相 比 里 一 决策 树 ， 因 其 随机 性 ， 模 型 解释 会 更 


复杂 一 些 。 


-影响 随机 和 森林 的 参数 与 调 优 


上 面 我 们 已 经 系统 了 解 了 随机 和 森林 的 原理 与 机 制 ， 
下 面 我 们 一 起 来 看 看 工程 应 用 实践 中 的 一 些 重 点 ， 
比如 随机 森林 模型 有 众多 可 调 参数 ， 它 们 有 什么 影 
响 ， 又 如 何 调 优 。 


1 ) 核心 影响 参数 


本 本 = 
随机 森林 分 类 模型 上 
mato maX 芭 
生成 单 颗 决策 树 时 的 特征 数 决策 树 的 棵 树 树 深 
Sh 1 研究 中 心 | 


(1 ) 生成 音 颗 决策 树 时 的 特征 数 


(max _ features ) 


。 增加 max features 一 般 能 提高 单个 决策 树 模型 
的 性 能 ， 但 降低 了 树 和 树 之 间 的 差异 性 ， 且 可 
能 降低 算法 的 速度 。 


。 大 小 的 max_features 会 影响 单 颗 树 的 性 能 ， 进 
影响 整体 的 集成 效果 。 


需要 适当 地 平衡 和 选择 最 佳 的 max_features。 
(2 ) 决策 树 的 棵 树 (n_estimators ) 


。 较 多 的 子 树 可 以 让 模型 有 更 好 的 稳定 性 和 泛 化 
能 力 ， 但 同时 让 模型 的 学 习 速度 变 慢 。 


。 我 们 会 在 计算 资源 能 支撑 的 情况 下 ， 选 择 稍 大 
的 子 树 棵 树 。 


(3 ) 树 深 (max_depth ) 


。 太 大 的 树 深 , 因为 每 颗 子 树 都 过 度 学 习 ， 可 能 


会 有 过 拟 合 问题 。 


。 如果 模型 样本 量 多 特征 多 ， 我 们 会 限制 最 大 树 
深 ,提高 模型 的 沁 化 能 力 。 


2 ) 参数 调 优 


| 

9 max_features REF 划分 时 考虑 的 最 大 特征 数 理 
名 

| 

o9 nmn_estimators 决策 树 的 棵 树 入 
可 

二 计 二 和 决策 树 最 大 深度 晶 


9 min_samptes_sptLit 内 部 节点 再 划分 所 需 最 小 样本 数 


69 min_samples_Leaf 叶子 节点 最 少 样本 数 
| CI 要 过 | 微 售 ShowMeAl 研 究 中 心 | 
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(1) RF 划 分 时 考虑 的 最 大 特征 数 


(max _ features ) 


。 总 数 的 百分比 ， 常 见 的 选择 区 间 是 [0.5, 0.9]。 


(2 ) 决策 树 的 棵 树 (n_estimators ) 


。 可 能 会 设置 为 >50 的 取 值 ， 可 根据 计算 资源 调 


JEo 


由 


(3 ) 决策 树 最 大 深度 (max_depth ) 


。 钊 见 的 选择 在 4-12 之 间 。 


(4 ) 内 部 万 点 再 划分 所 需 最 小 样本 数 


( ES ) 
。 如 果 样 本 量 不 大 ， 不 需要 调整 这 个 值 。 


。 如果 样本 量 数量 级 非常 大 ， 我 们 可 能 会 设置 这 


个 值 为 16，32，64 等 。 


(5 ) 叶子 节点 最 少 样本 数 (min_samples_leaf ) 


。 为 了 提高 泛 化 能 力 ， 我 们 可 能 会 设置 这 个 值 


>1。 
更 多 监督 学 习 的 算法 模型 总 结 可 以 查看 ShowMeAI 
的 文章 Al 知识 技能 速 查 | 机 器 学 习 - 监 督学 习 。 
人 钢 频 教程 
可 以 点 击 B 站 查看 视频 的 【双语 字幕 】 版 本 


【双语 字幕 + 资料 下 载 】MIT 6.036 | 机 器 学 习 导 论 
(2020. 完 整 版 ) 


双语 字幕 + 资料 下 载 】MIT 6.036 | 机 器 学 习 导 
论 (2020. 完 整 版 ) 


https:/www.bilibilcomAvideo/ 
BV1y44y187wN?p=12 


ShowMeAl 相 关 文 章 推荐 


。 1. 机 器 学 习 基 础 知识 

。 2. 模 型 评估 方法 与 准则 

。 3.KNN 算 法 及 其 应 用 

。 14. 逻辑 回归 算法 详解 

。5. 朴 素 贝 叶 斯 算法 详解 

。 6. 决 策 树 模型 详解 

。 7. 随 机 森林 分 类 模型 详解 
。8. 回 归 树 模型 详解 
。9.GBDT 模 型 详解 

。 10.XGBoost 模 型 最 全 解析 
。11.LightGBM 模 型 详解 

。 12. 支 持 向 量 机 模型 详解 
。 13. 聚 类 算法 详解 

。 14.PCA 降 维 算 法 详解 


ShowMeAl 系 列 教程 推荐 


。 图 解 Python 编程 : 从 入 门 到 精通 系列 教程 

。 图 解数 据 分 析 : 从 入 门 到 精通 系列 教程 

。 图解 Al 数学 基础 : 从 入 门 到 精通 系列 教程 

。 图解 大 数据 技术 : 从 入 门 到 精通 系列 教程 

。 图 解 机 器 学 习 算法 : 从 入 门 到 精通 系列 教程 


Sh@w Me Al 


司 解 机 器 学 习 | 回归 树 模 型 详 


原文 : https:Wblog.csdn.net/ShowMeAIl/ 
article/details/123401318 


ShowMeAIl 硬 核 A| 资 料 库 ， 用 知识 加 速 每 一 次 枝 术 成 长 


4 究 中 心 国 由 ss 轩 sxs .上 国 全 so 便 [ 门 开 玫 ， 


作者 : 韩信 子 @ShowMeAI 

教程 地 址 : http:/www.showmeai.tech/tutorials/34 
本 文 地 址 : http:W/www.showmeai.tech/article- 
detail/192 

声明 : 版 权 所 有 ， 转 载 请 联系 平台 与 作者 并 注 明 出 


大 家 在 前 面 的 部 分 学 习 到 了 使 用 决策 树 进 行 分 类 ， 
实际 决策 树 也 可 以 用 作 回 归 任 务 ， 我 们 叫 作 回归 
树 。 而 回归 树 的 结构 还 是 树 形 结构 ， 但 是 属性 选择 
与 生长 方式 和 分 类 的 决策 树 有 不 同 ， 我 们 一 起 来 看 
看 它 的 原理 知识 吧 。 


(本 篇 回归 树 模型 部 分 内 容 涉及 到 机 器 学 习 基 础 知 
识 、 决 策 树 算 法 ， 没 有 先 序 知 识 储备 的 宝宝 可 以 查 
看 ShowMeAI 的 文章 [图 解 机 器 学 习 | 机 器 学 习 基础 
知识 ]((http:W/www.showmeai.techy/article-detaiy185) 
及 决策 树 模 型 详解 ) 。 


1. 决 筑 树 回归 算法 核心 思想 


1 ) 决 梨 树 结构 回顾 


我 们 一 起 来 回顾 一 下 决策 树 的 结构 ， 决 策 树 的 典型 
结构 如 下 图 所 示 。 


决策 树 的 学 习 过 程 和 预测 过 程 如 下 图 所 示 。 详 细 内 
容 可 以 参考 ShowMeAI 的 文章 决策 树 模型 详解 。 


3 
has， 学 习 过 程 : 多 


| 


< 荫 呈 语 (KGOD | ， 通 过 对 训练 样本 的 分 析 来 确定 “划分 属性 ” 语 
回归 树 模型 详解 国光 《 即 内 部 结 点 所 对 应 的 属性 ) 旧 
| 内 部 结 点 (Node) - 站 
SS 预测 过 程 : 
结构 回顾 时 ET 将 测试 示例 从 根 结 点 开始 ， 沿 着 划分 属性 所 
构成 的 “ 淹 定 测试 序列 " 下行， 直到 叶 结 


| @@ 禄 过 | 微 信 ShowMeAl 研 究 中 心 | 


主流 的 决策 树 算法 有 : 


.1D3 : 基于 信息 增益 来 选择 分 裂 属性 〈 每 步 选 
择 信息 增益 最 大 的 属性 作为 分 裂 节点 ， 树 可 能 
是 多 又 的 ) 。 


。C4.5 : 基于 信息 增益 率 来 选择 分 裂 属性 ( 每 步 
选择 信息 增 益 率 最 大 的 属性 作为 分 裂 节 点 ， 树 
可 能 是 多 义 的 ) 。 


。 CART : 基于 基尼 系数 来 构建 决策 树 ( 每 步 要 
求 基尼 系数 最 小 ， 树 是 二 义 的 ) 。 


其 中 : CART 树 全 称 Classification And Regression 
Tree， 即 可 以 用 于 分 类 ， 也 可 以 用 于 回归 ， 这 里 指 
的 回归 树 就 是 CART 树 ，1ID3 和 C4.5 不 能 用 于 回归 问 


日 
AEo 


2 ) 回归 树 的 核心 思想 


要 讲 回归 树 ， 我 们 一 定 会 提 到 CART 树 ，CART 树 全 
称 Classification And Regression Trees， 包括 分 
类 树 与 回归 树 。 


CART 的 特点 是 : 假设 决策 树 是 二 又 树 ， 内 部 结 点 
特征 的 取 值 为 “是 : 和 否 , ， 右 分 支 是 取 值 为 
是 4 的 分 支 ， 左 分 支 是 取 值 为 “ 否 , 的 分 支 。 这 
样 的 决策 树 等 价 于 "递归 地 二 分 每 个 特征 ，， 将 输 
入 空间 〈 特征 空间 ) 划分 为 有 限 个 单元 ， 并 在 这 些 
单元 上 确定 预测 的 概率 分 布 ， 也 就 是 在 输入 给 定 的 
条 件 下 输出 的 条 件 概率 分 布 。 


设 有 数据 集 D D D ， 构 建 回 归 树 的 大 体 思路 如 下 : 


。 〇 考虑 数据 集 D D D 上 的 所 有 特征 jjj ， 遍 历 
每 一 个 特征 下 所 有 可 能 的 取 值 或 者 切 分 点 s s S 
, 将 数据 集 D D D 划分 成 两 部 分 D1D_1 D1 
和 D2D 2D2。 


。@ 分 别 计算 D1D 1D1 和 D2D 2D2 的 平 
方 误 差 和 ， 选 择 最 小 的 平方 误差 对 应 的 特征 与 
分 割 点 ， 生 成 两 个 子 节 点 (将 数据 划分 为 两 部 


网 几 5 


。@@ 对 上 述 两 个 子 节 点 递归 调用 步骤 OO@， 直 到 
满足 停止 条 件 。 


回归 树 构 建 完成 后 ， 就 完成 了 对 整个 输入 空间 的 划 
分 ( 即 完成 了 回归 树 的 建立 ) 。 将 整个 输入 空间 划 
分 为 多 个 子 区 域 ， 每 个 子 区 域 输出 为 该 区 域内 所 有 
训练 样本 的 平均 值 。 


回归 树 模 型 详解 ( 和 将 整个 输入 空间 


划分 为 多 个 子 区 域 “局 | 


CART 示 例 1 


Dz 0.400 
De 1.000 


< 便 
每 个 二 区 域内 册 为 该 区 域内 忆 
所 有 训练 样 本 的 平均 值 “ 宫 
确 


我 们 知道 了 回归 树 其 实 是 将 输入 空间 划分 为 M 个 单 
元 ， 每 个 区 域 的 输出 值 是 该 区 域内 所 有 点 y 值 的 平均 
数 。 但 我 们 希望 构建 最 有 效 的 回归 树 : 预测 值 与 真 
实 值 差 异 度 最 小 。 下 面部 分 我 们 展开 讲 讲 ， 回 归 树 
是 如 何 生 长 的 。 


2. 司 发 陈 切 分 与 最 优 属性 选择 


1 ) 回归 树 模 型 示例 


我 们 用 一 个 经 典 的 棒球 案例 来 解释 回归 树 : 根据 从 
业 年 限 和 和 现 ， 去 预 估 棒 球 运 动员 的 工资 。 如 下 所 

示 ， 有 1987 个 数据 样本 ， 包 含 322 个 棒球 运动 员 。 
红 黄 表示 高 收入 ， 蓝 绿 表 示 低 收入 。 横 坐标 是 年 
限 ， 纵 坐标 是 表现 。 


hits| 四 [| 
| 
an。 | 1987 个 数 所 样本。 
= 。“ 昌 刘 和 1 
。 中 322 个 标 球 运动 员 ”已 
回归 树 模 型 详解 国 则 交付 全 于 二 生生 二 
| 28 红 黄 表 示 高 收入 人、 
人 加 
是 蓝 绿 表示 低 收入 况 
0 横 坐标 是 年 限 (year) 
品 本 eegS3。 时 记 
经 典 的 棒球 案例 ER SO 纵 坐 标 是 表现 (hits) 
也 仆 眠 索 | 党 信 ShowMeAl 研 究 中 心 | 
year 


中 http:Wwww.showmeaitechy 


这 个 简单 案例 中 ， 每 个 样本 数据 有 两 个 特征 : 从 业 
年 限 years 和 成 绩 表现 hits， 回 归 树 的 决策 过 程 由 最 
终生 成 的 回归 树 决定 ， 如 右 图 所 示 : 


。 根 决策 节点 为 特征 Years， 其 划分 阔 值 为 4.5 ， 
Years 小 于 4.5 的 样本 划分 到 左边 ， 大 于 或 等 于 
4.5 的 样本 划分 到 右边 ; 


第 二 个 决策 节点 的 特征 为 Hits， 其 划分 阀 值 为 


117.5，Hits 小 于 117.5 的 样本 划分 到 左边 ， 大 
于 或 等 于 117.5 的 样本 划分 到 右边 。 


。 一 个 样本 顺 着 决策 树 的 决策 条 件 ， 走 到 叶子 节 
点 ， 即 可 获得 预测 工资 ， 这 里 的 预测 工资 总 共 
就 3 种 取 值 ， 分 别 为 5.11、6.00、6.74。 


回归 树 模型 详解 站 | -8 


经 典 的 棒球 案例 


5 http:Wwww.showmeaitechy 


我 们 来 深入 拆 解 和 对 应 一 下 ， 其 实 回归 树 构建 完成 
后 ， 实 现 了 对 整个 空间 的 划分 (如 下 图 所 示 ) 。 实 
际 预测 时 ， 新 样本 会 按照 回归 树 的 决策 过 程 ， 被 划 
分 到 下 图 R1R 1IR1I、R2R2R2、R3R 3 

R3 之 中 的 一 个 区 域 Ri R_i Ri ， 而 这 个 新 样本 的 预 


测 值 ( 本 案例 中 为 棒球 运动 员 的 工资 ) 就 是 它 所 在 
的 区 域 。 


。 RiR_iRi 中 所 有 训练 样本 的 工资 平均 值 。 


全 


四 
呈 

多 
ov 


习 回归 树 背 后 的 含义 
回归 树 模型 详解 0 让 对 空间 的 划分 
人 中 人 关 本 
2 : 整个 平面 被 划分 成 3 部 介 也 
人 本 本 1175 由 
人 R1 = 信 IYears<45} 


和 全 生生 汪 太 汪 
1 没 R2 = 仪 |Years > 4.5, Hits < 117.9} 
经 典 的 棒球 案例 


R3 = 仪 IYears > 4.5, Hits > 117.5} 


1| 人 坦 索 | 赏 信 ShowMeAI 研 究 中 心 | 


中 http:Wwww.showmeaitechy 


回归 树 背 后 的 含义 : 对 空间 的 划分 。 整 个 平面 被 划 


分 成 3 部 分 : 


。R1=XxIYears<4.5R1={X|Years <4.5} 
R1=X|Years<4.5 

。R2=XlIYears>4.5 ,Hits<117.5R2 = 
仪 |Years > 4.5, Hits < 117.5} 
R2=XlYears>4.5,Hits<117.5 

。R3=XlIYears>4.5 ,Hits>117.5 R3 = 
人 { 仪 |Years > 4.5, Hits > 117.5} 
R3=XlYears>4.5,Hits>117.5 


2 ) 回归 树 构建 方法 
下 面 切 到 回归 树 构 建 的 核心 : 切 分 方式 与 属性 选 


挥 。 


假设 一 回归 问题 ， 预 估 结 果 y e RyNinRyeR ， 
寺 征 向 量 为 X=[x1,x2,x3,... ,xp]X= 


[x_1,x_ 2,x_ 39, dots , x_p ] X=[x1,Xx2,Xx3,….,Xxp] ， 回 
归 树 2 个 步骤 是 : 


。@ 把 整个 特征 空间 X X X 切 分 成 J J J 个 没有 
重 妓 的 区 域 R1,R2,R3,.…,RJ 
R_1,R_2,R_ 3, dots ,R_J R1,R2,R3…,RJ 


@ 其 中 区 域 R JR_J RJ 中 的 每 个 样本 我 们 都 

给 一 样 的 预测 结果 y ~ Rj=1n2jsRjyj 

tilde{y}) 人 {R_ 人 =Yracf1i{ny sumjxnRjy 分 

y~Rj=n1>jsRjyj， 其 中 nnn 是 RJR _ JRJ 
中 的 总 样本 数 。 


仔细 观察 一 下 上 面 的 过 程 ， 实 际 上 我 们 希望 能 找到 
如 下 的 RSS 最 小 的 化 划分 方式 R1 ,R2,R3,.…， 
RJR_1,R_2,R_3, vdots ,R_J R1,R2,R3……RJ 


RSS=>j=1J>ieseRi(yi-y>~Rij)2RS 
S=\sum_ 1=1)}^(U sum_ fixNnRjNeft(y 位 tildefy} 
_{R_ 分 jight^{2) RSS=j=12JisRji> (yi-y>Rj)2 


| 
CD 呆 
oo 假设 一 回归 问题 ， 宦 估 结果 ye R， 特 征 向 量 为 X = [ea ,xz xs, z]， 回 昌 树 2 个 步骤 是 :本 
@ 杷 整个 特征 空间 X 切 分 成 ) 个 没有 重 本 的 区 域 RPR Ra ,局 田 
回归 树 模型 详解 @ 区 域 凡 中 的 每 个 样本 都 给 一 样 的 祯 测 结果 7 一 je 忆 ， 其 中 /是 凡 中 的 总 样本 数 上 
-号 
榨 到 RSS 最 小 的 化 划分 方式 局 尼 Ra， 局 R55 一 》》On -加 
人 

切 分 方式 / 属性 选择 所 了 

计算 量 非常 大 号 忆 这 | 微 信 ShowMeAhi 研 究 中 心 | 
中 httpWwww.showmeaitechy 


。 yyy : 为 每 个 训练 样本 的 标签 构成 的 标签 向 
量 ， 同 量 中 的 每 个 元 系 $y_j $ 对 应 的 是 每 个 样 
本 的 标签 。 


。 XXX : 为 特征 的 集合 ，x1 ,x2,.…,Xp 
x_1,Xx_ 2, \dots ,x_p x1,x2,….,Xxp 为 第 1 个 特征 
到 第 p p p 个 特征 。 


。R1,R2,R3,..,RJR 1R 2,R 3, \dots 
,R_J R1,R2,R3,...,RJ 为 整个 特征 空间 划分 得 
来 的 J 个 不 重 灵 的 区 域 (可 以 参考 上 页 的 右 
5 


。y~RijiNtildefy} {fR_ 1 y=<Rj : 为 划分 到 第 jjj 
个 区 域 $R_j $ 的 样本 的 平均 标签 值 ， 用 这 个 
值 作为 该 区 域 的 预测 值 ， 即 如 果 有 一 个 测试 样 
本 在 测试 时 落 入 到 该 区 域 ， 就 将 该 样本 的 标签 
值 预测 为 y>* Rj tildefy}_{fR_ 屿 } y>Rij 。 


但 是 这 个 最 小 化 和 探索 的 过 程 ， 计 算 量 是 非常 非常 
大 的 。 我 们 采用 “ 探 款式 的 递归 二 分 4 来 尝试 解决 


这 个 问题 。 


递归 二 分 


回归 树 采 用 的 是 " 自 顶 向 下 的 贪 要 式 递 归 方 案 , 。 
这 里 的 贪 禁 ， 指 的 是 每 一 次 的 划分 ， 只 考虑 当前 最 
优 ， 而 不 回头 考虑 之 前 的 划分 。 从 数学 上 定义 ， 即 
选择 切 分 的 维度 〈 特征 ) xj x_j xj 以 及 切 分 点 sss 
使 得 划分 后 的 树 RSS 结 果 最 小 ， 公 陈 如 下 所 示 : 


R1(j,s)={xlxj<Ss}R2(j,s)={xlxj>s)} 
RSS=>xieR1(j,s)(Yyi-y>~R1)2+2> 
xiEcER2l(j,s)(yi-y>R2)2ibeginfaligned 
&R_ {f(, s)=eftMx \mid x_ 伟 <svightNN&R (2 
S)=\Ieftx mid x_ 付 \geq sightNN& RSS=\sum 

Xx 全 NMnR 0,sNeft(y 人 tildefy} {R 
1Nright)^A(2}+sum x 人 Nin R {2)0, s)Neft(y 全- 
tilde{y}) _{R_{2}Nright)A{2} endfaligned} R1 
(j,S)={X|xj<s}R2(,s)={Xxlxj>zs}RSS= 交 xieR10,s)(yi 
-y~R1)2+ 交 XieR2(,s)(yi-y~R2)2 


Pa 

自 顶 向 下 的 念 蓉 式 递归 方案 曙 
每 一 次 的 划分 ， 只 考虑 当前 最 优 ， 而 不 回 过 头 考虑 之 前 的 划分 相 

1 上 
加 月 树 模型 详解 选择 雪 分 的 维度 (特征 ) 刀 ， 以 及 切 分 点 s 使 得 划分 后 的 树 RSS 结 果 最 小 。 3 
Rs)=[lo< 村 邓 


Ra0is) = fl 杂 = 了 


切 分 方式 / 属性 选 标 国光 站 和 各 汪汪 
xiER(is) 


ER 


] 提 索 | 微 信 ShowMeAI 研究 中 心 | 


Ge 
总 | 罗 


中 http:Wwww.showmeaitechy 


我 们 再 来 看 看 “递归 切 分 4 。 下 方 有 两 个 对 比 图 ， 
其 中 左 图 是 非 递 归 方 陈 切 分 得 到 的 ， 而 右 图 是 二 分 
递归 的 方式 切 分 得 到 的 空间 划分 结果 (下 一 次 划分 
一 定 是 在 之 前 的 划分 基础 上 将 某 个 区 域 一 份 为 

一 )。 


三 了 
自 顶 向 下 的 贪 圭 式 着 归 方 案 
下 一 次 划分 一 定 是 在 之 前 的 划分 基础 上 将 某 个 区 域 一 价 为 二 到 
回归 树 模 型 详解 
非 递归 切 分 
得 到 的 回归 树 空间 划分 Re 
Rs 
二 分 递归 雪 分 JE 
切 分 方式 / 属性 选择 得 到 的 回归 树 空 间 划 分 已 
| 轩 入 过 | 符 售 Showyeni 
中 http:Wwwwshowmeaitechy 妈 在 3 


两 种 方式 的 差别 是 : 递归 切 分 一 定 可 以 找到 一 个 较 
优 的 解 ， 非 递归 切 分 穷 举 不 了 所 有 情况 ， 算 法 上 无 
法 实现 ， 可 能 无 法 得 到 一 个 较 好 的 解 。 


| 
区 自 顶 向 下 的 贪 楚 式 递归 方案 忆 


回归 树 模型 详解 回归 树 间 划 分 
Rs 


昌 
回归 树 空间 划分 与 预 估 结 果 可 祝 化 叶 
局 


3 


回归 树 
而 三 所 


切 分 方式 / 属性 选择 


中 http:Wwww.showmeaitechy 


回归 树 总 体 流 程 类 似 于 分 类 树 : 分 枝 时 穷 举 每 一 个 
特征 可 能 的 划分 阔 值 ， 来 寻找 最 优 切 分 特征 和 最 优 
切 分 点 国 值 ， 衡 量 的 方法 是 平方 误差 最 小 化 。 分 术 
直到 达到 预 设 的 终止 条 件 ( 如 叶子 个 数 上 限 ) 就 售 
上 : 


但 通常 在 处 理 具 体 问 题 时 ， 单 一 的 回归 树 模 型 能 力 
有 限 且 有 可 能 陷入 过 拟 合 ， 我 们 经 常会 利用 集成 学 
习 中 的 Boosting 思 想 ， 对 回归 树 进 行 增强 ， 得 到 的 
新 模型 就 是 提升 树 ( Boosting Decision Tree ) ， 进 
一 步 ， 可 以 得 到 梯度 提升 树 ( Gradient Boosting 
Decision Tree,，GBDT ) ， 再 进一步 可 以 升级 到 
XGBoost。 通 过 多 棵 回归 树 拟 合 残 差 ， 不 断 减 小 预 
测 值 与 标签 值 的 偏差 ， 从 而 达到 精准 预测 的 目的 ， 
ShowMeAI 会 在 后 面 介 绍 这 些 高 级 算法 。 


3. 过 拟 合 与 正则 化 


1 ) 过 拟 合 问 题 


决策 树 模型 存在 过 拟 合 风险 ， 通 常情 况 下 ， 树 的 规 
模 太 小 会 导致 模型 效果 不 佳 ， 而 树 的 规模 六 大 融会 
造成 过 拟 合 ， 非 常 难以 控制 。 


2 ) 过 拟 合 问题 处 理 


对 于 快 策 树 ， 我 们 通常 有 如 下 一 些 策略 可 以 用 于 环 
忆 过 拟 合 : 


me 

CD | 

WILLv Lv 多 
人 2 


闭 闭 这 
回归 树 模 型 详解 约束 榨 制 树 的 过 度 生长 后 剪 术 相 
订 
限制 树 的 深度 错误 率 降低 苋 棱 REP / 悲观 错误 剪 村 PEP 
过 拟 合 问题 处 理 分 类 误差 法 代价 复杂 度 剪 枝 CCP / 基干 错误 的 前 枝 EBP 
叶子 节点 最 小 数据 量 限 制 | @ 扫 索 | 短信 ShowMeAl 研 究 中 心 | 


(1 ) 约束 控制 树 的 过 度 生 长 


。 限制 树 的 深度 : 当 达 到 设置 好 的 最 大 深度 时 结 
束 树 的 生长 。 

。 分 类 误差 法 : 当 树 继续 生长 无 法 得 到 客观 的 分 
类 误差 减 小 ， 就 停止 生长 。 

。 叶子 节点 最 小 数据 量 限制 : 一 个 叶子 节点 的 数 
据 量 过 小 ， 树 停止 生长 。 


(2 ) 剪 枝 

约束 树 生 长 的 缺点 就 是 提前 扼杀 了 其 他 可 能 性 ， 过 
早 地 终止 了 树 的 生长 ， 我 们 也 可 以 等 待 树 生长 完成 
以 后 再 进行 剪 枝 ， 即 所 谓 的 后 剪 核 ， 而 后 剪 术 算 法 
主要 有 以 下 几 种 : 


。 Reduced-Error Pruning (CREP ， 错 误 率 降低 剪 


术 注 5 
。Pesimistic-Error Pruning (PEP ， 悲 观 错误 剪 
术 ) 。 


。 Cost-Complexity Pruning (CCP， 代 价 复杂 上 度 
航 校 ) 。 

。 Error-Based Pruning (EBP ， 基 于 错误 的 剪 
术 ) 。 


3 ) 正则 化 


对 于 回归 树 而 言 ， 在 剪 枝 过 程 中 我 们 会 添加 正则 化 
项 衡量 。 如 下 所 示 ， 考 虑 剪 校 后 得 到 的 子 树 {T a!} 
Meft MT_a vight \ {Tal ， 其 中 cvalpha ax 是 正则 化 
项 的 系数 。 当 固定 住 x alpha co 之 后 ， 最 佳 的 Ta 
T_a Ta 就 是 使 得 下 列 式 子 值 最 小 的 子 树 。 


2>2m=1ITI2xieeRmyi-y~R2)2+olT 


|\sum_{m=1yAfITI) Asum fx fin R_ fmyNeft(y 们 - 
xildefy} {R_{2}}vight)Af2}+AalphalT| m=12 ITIxi 
ERm> (yi-y~R2)2+olT| 


。|T|ITIITI 是 回归 树叶 子 节 点 的 个 数 。 
。oalpha co 可 以 通过 交叉 验证 去 选择 。 


更 多 监督 学 习 的 算法 模型 总 结 可 以 查看 ShowMeAI 
的 文章 Al 知识 技能 速 查 | 机 器 学 习 -监督 学 习 。 


饮 频 教 程 
可 以 点 击 B 站 查看 视频 的 【双语 字幕 】 版 本 


【双语 字幕 + 资料 下 载 】MIT 6.036 | 机 器 学 习 导 论 
(2020. 完 整 版 ) 


【双语 字幕 + 资料 下 载 】MIT 6.036 | 机 器 学 习 
导论 (2020. 完 整 版 ) 


https:/www.bilibil.comAvideo/ 
BV1y44y187wN?p=12 


ShowMeAl 相 关 文 章 推荐 


。 1. 机 器 学 习 基 础 知识 

。 2. 模 型 评估 方法 与 准则 

。 3.KNN 算 法 及 其 应 用 

。 14. 逻辑 回归 算法 详解 

。5. 朴 素 贝 叶 斯 算法 详解 

。 6. 决 策 树 模型 详解 

。 7. 随 机 森林 分 类 模型 详解 
。8. 回 归 树 模型 详解 
。9.GBDT 模 型 详解 

。 10.XGBoost 模 型 最 全 解析 
。11.LightGBM 模 型 详解 

。 12. 支 持 向 量 机 模型 详解 
。 13. 聚 类 算法 详解 

。 14.PCA 降 维 算 法 详解 


ShowMeAl 系 列 教程 推 荐 


。 图 解 Python 编程 : 从 入 门 到 精通 系列 教程 

。 图 解数 据 分 析 : 从 入 门 到 精通 系列 教程 

。 图解 Al 数学 基础 : 从 入 门 到 精通 系列 教程 

。 图解 大 数据 技术 : 从 入 门 到 精通 系列 教程 

。 图 解 机 器 学 习 算法 : 从 入 门 到 精通 系列 教程 


Sh@w Me Al 


色 解 机 器 学 习 | GBDT 模 型 详 


原文 : https:Wblog.csdn.net/ShowMeAIl/ 
article/details/123402422 


ShowMeAI 硬 核 A| 资 料 库 ， 用 知识 加 速 每 一 次 枝 术 成 长 


4 究 中 心 国 赋 ss 轩 sxs .上 国 全 so 便 [ 门 开 玫 ， 


作者 : 韩信 子 @ShowMeAI 

教程 地 址 : http:/www.showmeai.tech/tutorials/34 
本 文 地 址 : http:/www.showmeai.techyarticle- 
detail/193 

声明 : 版 权 所 有 ， 转 载 请 联系 平台 与 作者 并 注 明 出 
处 


1.GBDT 算 ; 


GBDT (Gradient Boosting Decision Tree ) ， 全 名 
叫 梯度 提升 决策 树 ， 是 一 种 运 代 的 决策 树 算 法 ， 又 
叫 MART (Multiple Additive Regression Tree ) ， 

它 通过 构造 一 组 弱 的 学 习 器 ( 树 ) ， 并 把 多 林 决 策 
树 的 结果 累加 起 来 作为 最 终 的 预测 输出 。 该 算法 将 
决策 树 与 集成 思想 进行 了 有 效 的 结合 。 


GBDT 通 过 构造 一 组 弱 的 学 习 器 ( 树 ) 
并 把 多 颗 决 策 树 的 结果 累加 起 来 作为 最 终 的 预测 输出 


GBDT 模 型 详解 5 


CEwme ) A predict( 局 ) 5405-=55 间 
全 
N 全 N B predict( 局 ) 1 11.5 
Se 让 5 


AT 


predict( 旋 ) 1 
1 人 
时 N Er 5 D predict( 生 ) ee 
梯度 查 升 决策 树 算 法 AP E_ predict( 语 ) 141.5=2.5 
(RD) (2 7 


机 模型 *Boosting 性 京 | 微 信 ShowMoAl 研 究 中心 


中 httpy/www.showmeaitechy 


(本 篇 GBDT 集 成 模型 部 分 内 容 涉及 到 机 器 学 习 基 
础 知识 、 决策 树 、 回 归 树 算法 ， 没 有 先 序 知识 储备 
的 宝宝 可 以 查看 ShowMeAI 的 文章 图 解 机 器 学 习 | 
机 器 学 习 基 础 知识 、 决 策 树 模型 详解 及 回归 树 模 


型 详解 ) 。 


1) Boosting 核 心思 想 


Boosting 方 法 训练 基 分 类 器 时 采用 串 行 的 方式 ， 各 
个 基 分 类 器 之 间 有 依赖 。 它 的 基本 思路 是 将 基 分 类 
器 层 层 琶 加 ， 每 一 层 在 训练 的 时 候 ， 对 前 一 层 基 分 
类 器 分 错 的 样本 ， 给 予 更 高 的 权重 。 测 试 时 ， 根 气 


各 层 分 类 器 的 结果 的 加 权 得 到 最 终结 果 。 


| 
| 


Bagging 4 
久 
并 行 - 各 基 介 类 器 之 间 无 强 依赖 局 


Bagging 与 Boosting 的 串 行 训练 方式 不 同 ，Bagging 
方法 在 训练 过 程 中 ， 各 基 分 类 器 之 辣 无 强 依赖 ， 可 
以 进行 并 行 训练 。 


2 ) GBDTi 详 解 
GBDT 的 原理 很 简单 : 


。 所 有 弱 分 类 器 的 结果 相 加 等 于 预测 值 。 

。 每 次 都 以 当前 预测 为 基准 ， 下 一 个 弱 分 类 器 去 
拟 合 误差 为 数 对 预测 值 的 残 差 〈 预测 值 与 真实 
值 之 间 的 误差 ) 。 

。GBDT 的 弱 分 类 器 使 用 的 是 树 模型 。 


人 
“ED = 
Na 。 权 分 类 器 的 结果 相 加 等 二 祯 济 

值 。 杰 


SN 
GBDT 模 型 详解 1 十. 罗 


: 
3 1 3 每 次 部 以 当前 祯 测 为 基准 ,下 了 


计算 残 差 一 | 
Re 一 个 弱 分 类 器 去 枚 合 误差 函数 - 生 ) 
预测 
0 对 预测 值 的 残 差 。 
。 GBDT 的 弱 分 类 器 使 用 的 是 树 


“。 秽 测 > 模型 5 
咏 二 .人 这 售 ShowMeAI 研 究 中 心 | 


如 图 是 一 个 非常 简单 的 帮助 理解 的 示例 ， 我 们 用 
GBDT 去 预测 年 龄 : 


第 一 个 弱 分 类 器 (第 一 棵 树 ) 预测 一 个 年 龄 
(如 20 安 ) ， 计 算 发 现 误 差 有 10 安 ; 

第 二 棵 树 预 测 拟 合 残 差 ， 预 测 值 6， 计 算 发 现 
差距 还 有 4 安 ; 

第 三 棵 树 继 续 预 测 拟 合 残 差 ， 预 测 值 3， 发 现 
差距 只 有 1 安 了 ; 

。 第 四 课 树 用 1 岁 拟 合 剩 下 的 残 差 ， 完 成 。 


最 终 ， 四 棵 树 的 结论 加 起 来 ， 得 到 30 轨 这 个 标注 答 
案 (实际 工程 实现 里 ，GBDT 是 计算 负 梯 度 ， 用 负 
梯度 近似 残 差 ) 。 


(1) GBDT 与 负 梯度 近似 残 差 


回归 任务 下 ,，GBDT 在 每 一 轮 的 迁 代 时 对 每 个 样本 
都 会 有 一 个 预测 值 ， 此 时 的 损失 阴 数 为 均 方差 损失 


品 数 : 


上 (yiyi^)=12Cyi-yi^)2ly 修 ， 
hatty_{)=racf1{2y_ 全 Ahat{y 二 六 A(2 TYyiyi 
)=21(Yi-yi)2 


损失 函数 的 负 梯 度 计 算 如 下 : 
TY OICYIsYT 和 
[racfpartial ly_ 人 ,hatfy_ 分 人 partial 


hatty_ 全 及 =(y_ 全 >hatty_ 二 ) -[oyiAolyiyi]=Yi-yi 
| 


[| 

环 
ov 
尼 


国 | 
回归 任务 下 ，GBDT 在 每 一 轮 的 闪 代 时 对 每 个 样本 都 会 有 一 个 预测 值 


GBDT 模 型 详解 


神 关 函数 为 均 方 差 模 拓 函数。 LOw3D = 了 On 一 20? 虽 
当 损 失 函数 选用 [ 均 方 和 

误差 损失 函数 J 时 ， 每 

一 次 拟 合 的 值 就 是 ( 真 

实 值 -预测 值 ) ， 即 残 差 


横 失 函数 的 负 梯度 - 人 四 


2 索 | 微 信 ShowMeA1 研 究 中 心 | 


可 以 看 出 ， 当 损失 了 男 数 选用 ' 均 方 误差 损失 , 时 ， 
每 一 次 拟 合 的 值 就 是 〈 真实 值 -预测 值 ) ， 即 残 差 。 
(2 ) GBDT 训 练 过 程 


我 们 来 借助 1 个 简单 的 例子 理解 一 人 GBDT 的 训练 过 
程 。 假 定 训练 集 只 有 4 个 人 (A,B,C,D)， 他 们 的 年 龄 


分 别 是 (14,16,24,26)。 其 中 ，A、B 分 别 是 高 一 和 高 
三 学 生 ; C、D 分 别 是 应 届 毕 业 生 和 工作 两 年 的 员 
工 : 


我 们 先 看 看 用 回归 树 来 训练 ， 得 到 的 结果 如 下 图 所 


丰 ， 


回 0 
购物 全 额 一 网 和 多 额 
近 1K >1K op 
GBDT 模 型 详解 AR 二 只 B: 高 三 学 生 , 16 岁 “名 
夺 汪 9 《 25 ) 加 
(aaao) (24.26)) 四 | 
1 Ci: 应 届 毕 业 生 ，24 岁 

训练 过 程 -回归 树 D; 已 工作 两 年 ，26 岁 
人 搜索 | 微 信 ShowMeAi 研究 中 心 | 

中 http:Wwww.showmeaitechy 


接 下 来 改 用 GBDT 来 训练 。 由 于 样本 数据 少 ， 我 们 
限定 叶子 节点 最 多 为 2 ( 即 每 棵 树 都 只 有 一 个 分 
枝 ) ， 并 且 限 定 树 的 棵 树 为 2。 最 终 训练 得 到 的 结 
如 下 图 所 示 : 


急 C: 应 届 毕 业 生 ，24 岁 
名 D: 已 工作 两 年 ，26 岁 


C 殖 差 = 24-25 -由 搜索 | 微 信 ShowMeAl 研 究 中 心 | 


[| 
/ 厅 
和 克 ,16， 429) WA As 高 一 学 生 ，14 岁 “名 
年 龄 较为 相近 二 四 
购物 金额 | A`B 和 > 
GBDT 模 型 详解 去 1K C、D 年 龄 较为 相近 中 B: 高 三 学 生 ，16 岁 所 
用 平均 年 龄 亿 测 值 虽 
15 25 网 

4 (24.26) 

攻 | 


残 差 = 实际 值 -预测 值 
A 丈 差 = 14-15 = -1 


训练 过 程 -GBDT 


中 http:Wwwwshowmeaitechy 


上 图 中 的 树 很 好 理解 : A、B 年 龄 较为 相近 ，C、D 
龄 较为 相近 ， 被 分 为 左右 两 文 ， 每 支 用 平均 年 龄 


作为 预测 值 。 


。 我们 计算 残 差 ( 即 “实际 值 , - ' 预测 值 ， ) ， 
所 以 A 的 残 差 14-15=-1。 


这 里 A 的 “上 预测 值 , 是 指 前 面 所 有 树 预 测 结 
累加 的 和 ， 在 当前 情形 下 前 序 只 有 一 棵 树 ， 所 
以 直接 是 15， 其 他 多 树 的 复杂 场景 下 需要 累加 
计算 作为 A 的 预测 值 。 


ns 

和 0 -本 到 
1 和 AAA: 高 一 学 生 ，14 岁 | 
经 党 向 把 

GBDT 模 型 详解 学 长 提问 高 = 学 生 , 16 岁 “ 吕 
局 

辆 


sc: 应 届 毕 业 生 ，24 岁 


训练 过 程 -GBDT 


D: 已 工作 两 年 ，26 岁 


且 志 党 信 ShowMeAl 研究 中 心 


http/wwwshowmeaitechy 


上 图 中 的 树 就 是 残 差 学 习 的 过 程 了 : 


。 把 A、B、C、D 的 值 换 作 残 差 -1、1、-1、1 ， 
再 构建 一 棵 树 学 习 ， 这 棵 树 只 有 两 个 值 1 
和 -1， 直接 分 成 两 个 忆 误 : A、C 在 左边 ，B、 
D 在 右边 。 


。 这 棵 树 学 习 残 差 ， 在 我 们 当前 这 个 简单 的 场景 
下 ， 已 经 能 保证 预测 值 和 实际 值 ( 上 一 轮 残 
差 ) 相等 了 。 


。 我 们 把 这 棵 树 的 预测 值 昧 加 到 第 一 棵 树 上 的 预 
测 结果 上 ， 就 能 得 到 真实 年 龄 ， 这 个 简单 例子 
中 每 个 人 都 完美 匹配 ， 得 到 了 真实 的 预测 值 。 


Ca) 全国 -2 只 Asrry 
CGBpT 模 型 详 角 全 NS Re 5 人 和 上 
唱 
汪 妨 C: 25-1=24 岁 2 
和 | 和 灾 索 | 往 信 ShowMeAl 研 究 中 心 | 
中 httpwww.showmeaitechy 
最 终 的 预测 过 程 是 这 样 的 : 
。A : 高 一 学 生 ， 购 物 较 少 ， 经 常 问 学 长 问题 ， 
真实 年 龄 14 安 ， 预 测 年 龄 A= 15- 1 = 14 
。B : 高 三 学 生 ， 购 物 较 少 ， 经 常 被 学 弟 提 问 ， 
| 16 安 ， 预 测 年 龄 B= 15 + 1 = 16 
。 ee 业 生 ， 购 物 较 多 ， 经 常 问 学 长 问 
实 年 龄 24 安 ， 预 测 年 龄 C=25-1= 24 


加 ee 购物 较 多 ， 经 常 被 学 弟 提 
问 ， 真 实 年 龄 26 安 ， 预 测 年 龄 D =25+1=26 


综 上 ，GBDT 需 要 将 多 棵 树 的 得 分 累加 得 到 最 终 的 
预测 得 分 ， 且 每 轮 妈 代 ， 都 是 在 现 有 树 的 基础 上 ， 
增加 一 棵 新 的 树 去 拟 合 前 面 树 的 预测 值 与 真实 值 之 
辣 的 残 差 。 


2. 梯 度 提 升 vs 梯度 下 降 


下 面 我 们 来 对 比 一 下 “ 梯度 提升 , 与 “梯度 下 
降 ，。 这 两 种 和 迭 代 优 化 算法 ， 都 是 在 每 1 轮 欠 代 中 ， 
利用 损失 上 子 数 负 梯 度 方向 的 信息 ， 更 新 当前 模型 ， 


只 不 过 : 


。 梯度 下 降 中 ， 模 型 是 以 参数 化 形式 表示 ， 从 而 
模型 的 更 新 等 价 于 参数 的 更 新 。 


。 梯度 提升 中 ， 模 型 并 个 需要 进行 参数 化 表示 ， 
而 是 直接 定义 在 函数 空间 中 ， 从 而 大 大 扩展 了 
可 以 使 用 的 模型 种 类 。 


FSFte 和 -ptYFLIFEEFLTFEF 人 E 和 Nt 
ho 亿 nabla_{F} Lvight| {F=F 化 1 人 F=Ft-1-pt 
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L=2ilyi,F(xi))L=sum 人 { 他 Neft(y_ 人,F 
eft(x_{iright)ight) L=i2 (yiF(xi)) 


wt=wt-1-ptVvwLlw=wt-1w 人 妇 =w 人 1}- 
Meft.rho_ 他 nabla {w}) Lightl {w=w_ 人 1 wt=wt 
-1-ptVwL|w=wt-1 


L=2ilyifw(wi))L=sum 们 Neft(y 人 ， 
f {wNefttw_ fijwightvight L=i2 lyifw(wi)) 


GBDT 模 型 详解 榜 度 根 升 ”函数 空间 F 下 = 忆 -1 一 prghLlrca ， 了 工 = Doorem) 


友 


和 宰 度 下 降 “参数 间 w，。 水 一 几 _i 一 Pgullwcw ， 工 -> iovpeD) 


微 信 ShowMeAl 研 究 中 心 | 


中 http:Wwww.showmeaitechy 


3.GBDT 估 缺点 


下 面 我 们 来 总 结 一 人 GBDT 模 型 的 优 缺 点 : 


WE [| 

:全 预测 阶段 ， 因 为 每 棵 树 的 结 松 剖 已 确定 ， 可 并 行 化 计算 ， 计 算 速 度 快 | 
:加 : 适用 和 密 数 据 ， 泛 化 能 力 和 表达 能 力 者 不 错 ， 数 据 科学 竞赛 构 首 常见 模型 从 

下 R 

GBDT 模 型 详解 : 罗 : 可 解释 性 不 错 , 鲁 棒 性 栗 可 ,能够 自动 发 现 特征 间 的 高 阶 关系 。 SS 
号 包 

二 

厂 


VS. 如 GBDT 在 高 维 稀疏 的 数据 集 上 ， 效 率 较 差 ， 且 效果 表现 不 如 SVM 或 神经 网 络 。 


2 适合 数 值 型 特 征 ， 在 NLP 或 文本 特征 上 盘 现 。 


2 让 区 过 程 天 法 并 和 工程 速 只 能 体现 在 音 中 本 机 寻 过 各 中 "汉人 ShowMaAI 研 究 中 心 


中 http:Wwww.showmeaitechy 


1 ) 优点 


。 预测 阶段 ， 因 为 每 棵 树 的 结构 都 已 确定 ， 可 并 
行 化 计算 ， 计 算 速度 快 。 


。 适用 稠密 数据 ， 泥 化 能 力 和 表达 能 力 都 不 错 ， 


数据 科学 竞赛 榜首 常见 模型 。 
”可 解释 性 不 错 ， 鲁 棒 性 亦 可 ， 能 够 自动 发 现 特 
征 间 的 高 阶 关 系 。 

2 ) 缺点 


。GBDT 在 高 维 稀 ee 效率 较 差 ， 且 
效果 表现 不 如 SVM 或 忻 经 网 络 。 


适合 数值 型 特征 ， 在 NLP 或 文本 特征 上 表现 
。 训练 过 程 无 法 并 行 ， 工 程 加 速 只 能 体现 在 单 颗 
树 构建 过 程 中 。 


4.[ 逢 机 森林 vs GBDT 


对 比 ShowMeAI 前 面 讲解 的 另外 一 个 集成 树 模型 算 
法 随机 森林， 我 们 来 看 看 GBDT 和 叱 的 异同 点 。 


SR 于 
都 是 集成 模型 ， 由 多 棵 树 组 构成 ， 最 终 的 结果 邦 是 由 多 棣 树 一 起 决定 
GBDT 模 型 详解 Random Forest 和 和 GBDT 在 使 用 CART 岩 时 ， 可 以 是 分 类 树 或 者 回归 宕 
不 同 点 | 
训练 过 程 中 随机 森林 的 树 可 以 并 行 生成 让 红 过 得 中 GBDT 只 能 中 和 上 度 。 国 
结果 是 多 数 表决 表决 的 多 标 央 累加 之 
对 异常 值 不 敏感 对 异常 值 比较 敏感 
降低 模型 的 方差 陈 低 模型 的 偏差 
| @@ 坦 索 | 演 信 ShowMeAl 研 究 中 心 


1 ) 相同 点 


。 都 是 集成 模型 ， 由 多 棵 树 组 构成 ， 最 终 的 结 
都 是 由 多 棵 树 一 起 决定 。 


。RF 和 GBDT 在 使 用 CART 树 时 ， 可 以 是 分 类 树 
或 者 回归 树 。 
2 ) 不 同 点 


。 训练 过 程 中 ， 随 机 森林 的 树 可 以 并 行 生 成 ， 而 
GBDT 只 能 串 行 生成 。 

。 随机 森林 的 结果 是 多 数 表决 表决 的 ， 而 GBDT 
则 是 多 棵 树 昧 加 之 。 


。 随机 和 森林 对 异常 值 不 敏感 ， 而 GBDT 对 异 弟 值 
比较 敏感 。 


。 随机 森林 降低 模型 的 方差 ， 而 GBDT 是 降低 模 
型 的 偏差 。 


5.Python 代 码 应 用 与 模型 可 
钢化 


下 面 是 我 们 直接 使 用 python 机 器 学 习 工 具 库 sklearn 
来 对 数据 拟 合 和 可 视 化 的 代码 : 


# 使 用 Sklearn 调 用 GBDT 模 型 拟 合 数据 并 可 视 化 


moOEEUmByYEEa si 


人马 吕 的 大 人 人 全 动人 训 司 下 


fxrom SKJLearn.ensemble import GradqientBoostingRed 


xnPSaeanoge REeshaloei ET ) 
站 也 本 本 3 全 | 后 下 玖 全 忆 本 9 六 于 6 六 2 6 7 15 


gbdqdt = GradientBoosting9Redressor (max_dqepthF4， cL 


1 全 网 S 和 克 站 1 汪 村 可 加 全 二 信 关 后 = 交 7 作用 人 吉 放 交 攻关 汪 南 =， e 二 
Oh 县 忆 XeEDISETmDSTE 巧 荆 Si 人 本 oOmeEaeksaqaEa 


fxrom SKJLearn.tree import export_dgraphvZiz 


# 拟 合 训练 5 棵 树 
Sub tree = gbqt.estimators_ [4，0] 


Qqot_ qdata = export_ draphviz(sub 七 reev 


out_ file=No: 


apn = PPvVQecElseocapneeeomeaceeaaealtaocenata) 


Image (graph.create_png() ) 
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。 图 解数 据 分 析 : 从 入 门 到 精通 系列 教程 
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。 图解 大 数据 技术 : 从 入 门 到 精通 系列 教程 

。 图 解 机 器 学 习 算法 : 从 入 门 到 精通 系列 教程 
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XGBoost 是 extreme Gradient Boosting 的 缩写 称 

呼 ， 它 是 一 个 非常 强大 的 Boosting 算 法 工具 包 ， 优 
秀 的 性 能 (效果 与 速度 ) 让 其 在 很 长 一 段 时 间 内 对 
屏 数 据 科 学 比赛 解决 方案 榜首 ， 现 在 很 多 大 三 的 机 


器 学 习 方 案 依 旧 会 首选 这 个 模型 。 


XGBoost 在 并 行 计 算 效 率 、 缺 失 值 处 理 、 控 制 过 拟 
合 、 预 测 沁 化 能 力 上 都 变现 非常 优秀 。 本 文 我 们 给 
大 家 详细 展开 介绍 XGBoost， 包含 “算法 原理 ， 和 
工程 实现 , 两 个 方面 。 


关于 XGBoost 的 工程 应 用 实践 ， 欢 迎 大 家 参考 
ShowMeAI 的 另外 一 篇 实战 文章 XGBoost 工 具 库 建 
模 应 用 详解 。 


(本 篇 XGBoost 部 分 内 容 涉及 到 机 器 学 习 基 础 知 

识 、 决 策 树 / 回 归 树 /GBDT 算 法 ， 没 有 先 序 知识 储备 
的 宝宝 可 以 查看 ShowMeAI 的 文章 图 解 机 器 学 习 | 
机 器 学 习 基 础 知识 、 决 策 树 模型 详解 、 回 归 树 模型 
详解 ) 及 图 解 机 器 学 习 | GBDT 模 型 详解 ) 。 


1. 算 法 原理 可 钢化 解读 


天 于 XGBoost 的 原理 ， 其 作者 陈 天 奇 本 人 有 一 个 非 


常 详 尽 的 Slides 做 了 系统 性 的 介绍 ， 我 们 在 这 里 借 
助 于 这 个 资料 给 大 家 做 展开 讲解 。 


1 ) 监督 学 习 中 的 一 些 重要 概念 


在 开始 介绍 Boosted Tree 之 前 ， 我 们 先 来 回顾 一 下 
机 器 学 习 中 的 一 些 重要 的 概念 。 


符号 (Notations ) : xieRdx inR^dxieRd 
表示 训练 集中 的 第 iii 个 样本 。 


模型 ( Model ) : 对 于 已 知 的 xix_ixi 如 何 预测 y ^ 
i hat{y}_iyAi ? 


线性 模型 (Linear Model ) y^i= 工 jwjxij'\hatfy} 
-性 =\Sigma_ 分 w_ 全 xx { 计 yi= 玖 wjxij (包括 线性 回 
归 和 逻辑 回归 ) ， 预 测 值 y ^i \hat{fy}_i yAi 根 据 不 同 
的 任务 有 不 同 的 解释 : 


。 线性 回归 (Linear Regression ) : y^ixhatfy} 
_iy^Ai 表 示 预 测 的 分 数 。 


逻辑 回归 (Logistic Regression ) : 1/(1+e 
-YA^i) 1(1+e^{fnAhatfy} 1) 11+e-- De 
实例 为 正 的 概率 。 


其 他 : 例如 在 排名 任务 中 y ^i hatly}_i yAieJ 以 
是 排名 分 数 。 


参数 (Parameters) 目标 函数 (Objective function) 闵 
二 局 丰 末末 冰 王 和 必 沈 守 四 多 


XGBoost 最 全 解析 训练 数据 损失 函数 (Training Loss) 人 


Li 信 ) = (下 一 轨 
五 二 32 (ww 信 辆 
RE 
监督 学 习 进 阶 知识 正则 化 项 (Regularizatiom) 和 
9 =Alul Qto)= AlwolP | 全 地 索 | 短信 ShowMeAi 研 究 中心 | 


中 http/www.showmeaitechy 


参数 (Parameters ) : 需要 从 数据 中 学 习 的 东西。 


。 线 性 模型 (Linear Model) : 9@ ={wjij =1， 
2,...,d}xTheta =\IeftMw j 川 =1,2A\dots,dNright 
OO={wijlj=1,2….,d} 


目标 函数 (Objective function ) Obj(9 )=LI(O 
)+QO(GO)ObiNATheta )=LCATheta )+\Omegal 
(Theta ) Obj(O@)=L(O)+Q(O) 


. L(96 ) LATheta ) L(9) 代 表 训 练 损失 函数 
(Training Loss ) ， 表 示 模型 多 好 的 拟 合 了 训 
练 数据 。 


。0O(O)\Omega (\Theta ) O(O) 为 正则 化 项 
(Regularization ) 衡量 了 模型 的 复杂 程度 。 


训练 数据 损失 函数 (Training Loss ) L= 工 i= 1nl 
(yi,yY^i)L=\Sigma _{fi=1)^(njly ixhat(y} 
L=Zi=1nl(yi,yAi) 


。 平方 损失 (Square Loss ) : 1(yi,y^i)=( 
yi-y^i)2Iy ixhat{y}j _D)=(y_i-\hat{y} D)^2 
lyYby^D=(Yi-y^)2 

。 逻辑 损失 (Logistic Loss) : 1(yi,y^i)=y 
ilIn(1+e-y^i)+(1-yi)In(1+eyA^i) 
I(y_ixhat{fy}_D=y_iln(1+e^{Ahat{fy} 让 )+(1- 
y_jDlIn(1+e^fhat{fy} 让) IOyiyAD=yiln(1+e-yAi 
)+(1-yi)In(1+ey^i) 


正则 化 项 (Regularization ) : 描述 了 模型 的 复杂 程 
度 。 


。L1 Norm (lasso) : Q(w)=A 入 lwll1 


\Omega (w)=\ambdallwll 1 Q(w)=Alwl1 


。L2Norm : OQ(w)= 入 ||w|ll12\Omega (w)= 
Mambdal|wlI^2 GO(w)= 和 |wll2 


(2 ) 监督 学 习 进 阶 知识 


四 忆 
Ridge 回 归 “ 忆 2 i( 公 一 woi)2 十 和 lwll 党 
平方 损失 L2 Norm 本 
XGBoost 最 全 解析 

Lasso 习 2 (人 一 7zi)2 十 和 wo 加 
平方 损失 

逻辑 回归 了 8 1 (做 吕 (1 十 e 作 区 十 代 一 天 )m(1 二 es)) 十 Au 
妈 辑 损 和 L2 Norm Ce 索 | 赏 信 ShowMehl 研 究 中心 | 


Ridge 回 归 : zi=1n(yi-wTxi)2+ 入 llwl|2 
\Sigma_{fi=1}^(n)(y_i-w^ATx_D)^2+ambdal|wl|^2 
>i=1n(yi-wTxi)2+Allwll2 


。 Ridge 是 线性 模型 (Linear Model ) ， 用 的 是 平 
方 损失 (Square Loss ) ， 正 则 化 项 是 L2 
Norm。 


Lasso : >i=1nl(yi-wTxi)2+A 和 IlwllIi 
\Sigma_{fi=1}^(n)(y_i-w^ATx_D)^2+Nambdallwll 1 
Zi=1n(yi-wTxi)2+Allwll 


。Lasso 是 线性 模型 (Linear Model ) ， 用 的 是 


平方 损失 (Square Loss ) ， 正 则 化 项 是 Li 


Norm。 


逻辑 回归 (Logistic Regression ) : Zi=1Tnl(yil 
n(1+e-wTxi)+(1-yi)In(1+ewTxi)) 
+ 和 ||wll12\Sigma _{fi=1)^{n}(y_iln(1+e^{- 
WA^ATx_i))+(1-y_iD)In(1+e^A{(w^ATx_ iD))+MambdallwlI^2 
>i=1nlyiln(1+e-wWTxi)+(1-yiD)lIn(1+ewTxi))+Allwll2 


。 逻辑 回归 是 线性 模型 (Linear Model ) ， 用 的 
是 逻辑 损失 (Logistic Loss ) ， 正 则 化 项 是 L2 
Norm。 


(3 ) 目标 冰 数 及 偏差 方差 权衡 


回顾 一 下 目标 冰 数 Obj(9)=L(O)+QO(GO) 
ObjATheta )=LATheta )+\Omega (ATheta ) 
Obj(9)=L(9)+GO(9)， 为 什么 目标 函数 需要 两 部 分 组 
成 呢 ? 


目标 函数 (Objective function) 


XGBoost 最 全 解析 人 


一 
优化 训练 损失 函数 (Training Loss) 优化 正则 化 项 (Regularization) 加 
有 助 干 建 立 预 测 模型 ， 拟 合 训练 数据 使 有 助 干 建立 简单 的 模型 : 模型 越 简单 ， 
其 更 核 近 潜 在 的 训练 数据 的 分 布 。 未 来 预测 的 方差 越 小 ， 预 测 越 稳 定 。 


局 
[这 


| D 福 索 | 党 售 ShowMeml 研 究 中 心 


。 优 化 训练 损失 函数 (Training Loss ) 有 助 于 建 
立 预测 模型 ， 很 好 地 拟 合 训 练 数 据 至 少 能 让 你 
更 接近 潜在 的 训练 数据 的 分 布 。 


。 优化 正则 化 项 (Regularization ) 有 助 于 建立 简 
单 的 模型 : 模型 越 简单 ， 未 来 预测 的 方差 越 
小 ， 预 测 越 稳定 。 
2 ) 回归 树 (Regression Tree ) 和 集成 
(Ensemble ) 


(1) 回归 树 (Regression Tree ) 


回归 树 ， 也 就 是 分 类 回归 树 (Classification and 
Regression Tree ) 〈 详情 请 查看 ShowMeAI 文 章 回 
归 树 模型 详解 ) 


。 决策 规则 和 决策 树 一 样 
。 每 个 叶子 结 点 有 一 个 值 


(2 ) 回归 树 集 成 ( Regression Tree Ensemble ) 


加 | 
最 终 的 预测 值 就 是 样本 在 每 颗 树 中 所 在 的 叶子 结 点 的 预测 值 的 和 


XGBoost 最 全 解析 


从 上 图 的 左 图 可 以 看 出 ， 共 有 5 个 训练 样本 。 


从 上 图 的 中 图 可 以 看 出 ， 每 个 叶子 节点 都 有 预测 
值 : 第 一 个 叶子 结 点 的 预测 值 是 2， 第 二 个 叶子 结 点 
的 预测 值 是 0.1， 第 三 个 叶子 结 点 的 预测 值 是 -1。 


。 小 男孩 被 分 到 第 一 个 叶子 结 点 中 ， 所 以 小 男孩 
的 预测 值 是 2 ; 

。 小 女儿 被 分 到 第 二 个 叶子 结 点 ， 她 的 预测 值 是 
0.1 ; 

。 剩余 的 三 个 人 (样本 ) 被 分 到 第 三 个 叶子 结 点 
中 ， 他 们 的 值 都 是 -1。 


最 终 的 预测 值 就 是 样本 在 每 颗 树 中 所 在 的 叶子 结 点 
的 预测 值 的 和 。 
(3 ) 树 集成 方法 


树 集成 的 方法 使 用 非常 广泛 ， 像 GBM、 随机 森林 等 
( 详 见 ShowMeAI 文 章 图 解 机 器 学 习 | GBDT 模 型 


详解 和 图 解 机 器 学 习 | 随机 森林 分 类 模型 详解 ) 。 
多 达 半 数 的 数据 挖掘 竞赛 通过 使 用 各 种 各 样 的 树 集 
成 方法 而 获胜 。 


。 不 受 输入 量 纲 的 影响 ， 因 此 不 需要 对 特性 进行 
细致 的 标准 化 。 

。 学 习 特 征 之 间 的 高 阶 交 互 〈 高 阶 交 叉 特 征 ) 。 

。 可 以 扩展 ， 用 于 不 同 的 行业 。 


(4) Boosted Tree 的 模型 和 参数 


| 
| 


) ， 
模 。。。 刀 = 2 庆 < 国 
包含 K 棵 回归 树 的 函数 空间 


XGBoost 最 全 解析 


S 
四 


辆 


包括 每 棵 树 的 结构 和 叶子 结 点 中 的 分 数 


人 得 索 | 管 信 ShowMeAl 研究 中 心 


模型 : 假设 我 们 有 K 棵 树 : y^i=Zk=1Kfk(xi 
) ,fk e FAhatfy}) _i=\Sigma {k=1)^Kf k(x if in 
F y^Ai=Zk=1Kfk(xi),fk se F。 其 中 ，F 为 包含 所 有 回归 
树 的 函数 空间 。 


。 回归 树 是 一 个 将 属性 映射 到 分 数 的 组 数 。 


参数 : 包括 每 棵 树 的 结构 和 叶子 结 点 中 的 分 数 。 或 
者 使 用 子 数 当 作 参数 : @O={f1,f2,.…,fK} 


\Theta =\Ieftf 1 2 人 Kighty ={f1,f2…, 人 fk 
}。 


。 这 里 我 们 不 学 习 R d R^d Rd 的 权重 ， 我 们 在 
Boosted Tree 中 学 习 函 数 ( 树 ) 。 


(5 ) 在 单 变 量 上 学 习 Boosted Tree 


单 变量 也 就 是 单个 特征 ， 通 过 了 解 如 何在 单 变量 上 
学 习 Boosted Tree， 我 们 可 以 对 Boosted Tree 的 学 
习 模 式 有 个 简单 的 概念 。 


举例 : 假设 回归 树 只 有 一 个 输入 变量 t( 时间 ) ， 和 希 
望 预测 小 由 在 t 时 刻 有 多 喜欢 浪漫 音乐 。 


[| 
加 画 
举例 : 假设 回归 树 只 有 一 个 输入 变量 t (时 间 ) ， 预 测 | 小 哥 在 t 时 刻 有 多 喜欢 浪漫 音 乐 有 


《人 Boost 最 全 解析 Piecewise step function overtime 
可 The modelis regression tree that splits on 
回归 树 更 易 表达 左 图 et 
芝 
mm 
。 ee 1< 2010103/20 
timeline 

Wenimet ny gi 
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从 上 左 图 可 以 看 到 ， 这 位 小 哥 在 单身 的 时 候 ， 
对 良 漫 音乐 的 喜欢 程度 很 低 ; 但 是 当 他 遇 到 了 
女 朋 友 ， 随 着 体内 谷 尔 蒙 的 分 布 增加 ， 他 对 浪 
漫 音乐 的 喜欢 程度 增加 了 ; 但 是 有 一 天 分 手 
了 ， 他 对 良 漫 音乐 的 喜欢 程度 勾 变 低 了 。 当 


然 ， 我 们 也 可 以 发 现 ， 上 右 图 的 回归 树 很 容易 


达 上 左 图 。 


为 了 构建 上 右 图 的 树 ， 我 们 需要 学 习 两 个 东西 : 


、 分 裂 的 点 
AAA 上 


> 每 个 分 段 上 的 高 。 


| 
岛 号 
举例 : 假设 回归 树 只 有 一 个 输入 变量 t( 时 间 ) ， 预测 小 可 在 t 时 刻 有 多 喜欢 浪 浊音 乐 

也 
XG Boost 最 全 解析 Piecewise step function over time 呈 
僵 [ 分 简 的 上 史 

构建 回归 树 
Boosted Tree 
time 和 i 
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单 变 量 回 归 树 的 目标 〈 阶 跃 邓 数 ) 


。 训练 损失 : 函数 如 何 拟 合 点 ? 


正则 化 : 如 何 定义 函数 的 复杂 度 ? (分 袭 


个 数 和 每 段 高 度 的 L2 Norm ? ) 


必 加 

CD) 上 

举例 : 假设 回 昌 树 只 有 一 个 输入 变量 t( 时 间 ) ， 预 测 小 哥 在 t 时 刻 有 多 喜欢 浪 刘 音乐 
本 

XGBoost 最 全 解析 & 


图 (4) 
摔 合 程度 和 


本 性 区 印 口 返 
过 | 徽 售 ShowMeAl 研究 中 心 


图 (D) (2) 
Boosted Tree 每 个 时 间 分 割 太 多 


喜欢 程度 的 散 点 图 模型 复杂 度 很 高 
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。 图 (1 ) 是 小 哥 在 每 个 时 间 上 对 浪漫 音乐 的 喜 
欢 程 度 的 散 点 图 ; 

。 图 (2 ) 可 以 看 到 有 太 多 的 分 剖 ， 模 型 的 复杂 
度 很 高 ， 所 以 模型 的 Q (f){\Omega (f)} Q(f) 
很 高 

。 图 (3 ) 可 以 看 到 模型 的 拟 合 程度 很 差 ， 所 以 上 
(f){L (ff L 人 很 高 

。 图 (4 ) 是 最 好 的 ， 无 论 是 拟 合 程度 和 复 杂 程 
度 都 非常 合适 ; 


(6 ) 一 般 情形 的 Boosted Tree 
首先 回顾 上 面 我 们 对 Boosted Tree 的 定义 : 


模型 : 假设 我 们 有 K 棵 树 : y^i=Zk=1Kfk(xi 
) ,fkeFnhattyji=NSigma {k=1}^(K) fkK(X_ D)， 
f_ Kin F yAi=>zk=1Kfk(xi),fk esF 


目标 函数 : Obj=zi=1nl(yi,y^i 站 +zk=1 
KQ(fk) Obj=\Sigma {i=1jAnl(y_iAhatfy} D)+ 
\Sigma {k=1}^KAOmega (f_k) Obj= 于 =1nl(yiyAi 
)+zk=1KQ(fk) 


。2Zi=1nl(yi,y^iDNSigma fi=1)^nl(y 
wmatfy} ) zi=1nl(yiy 是 成 本 函数 


“zk-1KQO(fk)\Ssigma {k=1i^KOmega 
(f_k) zk=1KQ(fk) 是 正则 化 项 ， 代 表 树 的 复杂 程 
度 ， 树 越 复杂 正则 化 项 的 值 越 高 (正则 化 项 如 
何 定义 我 们 会 在 后 面 详 细 说 ) 。 


当 我 们 讨论 树 的 时 候 ， 通 常 是 启发 式 的 : 


| 
模型 页 三 2 大 (zi 太 E 王 四 
昔 

本 目标 函数 00 = Di 人) 上 Zi0( 力 -二 
XGBoost 最 全 解析 作 
加 
启发 式 4 

通过 信息 增益 来 做 分 裂 修剪 树木 最 大 深度 平滑 叶 值 


CD) 担 索 | 赏 售 ShowMeA1 研 究 中 心 | 


。 通 过 信息 增益 来 做 分 裂 


平滑 叶 值 


大 多 数 启发 式 算法 都 能 很 好 地 映射 到 目标 纹 数 ， 采 
用 形式 〈 目标 ) 视图 让 我 们 知道 我 们 正在 学 习 什 
么 : 


模型 信 三 3 办 (zi)) 友 E 五 


=| 
目标 冰 数 ”00 = 22il(0 人 +2Ei0() -二 一 


XGBoost 最 全 解析 
启发 式 -- 映射 到 目标 函数 柄 
通过 信息 增益 来 做 介 狼 。 修 前 权 本。 基 大 深度 平滑 叶 值 
esteduree 训练 栅 失 节点 正则 化 的 开 1L2 正 则 化 对 叶片 的 权重 


| 人 二 过 | 党 信 ShowMeAT 研 究 中 心 
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。 信息 增 益 一 训练 损失 

。 修 航 一 对 万 氮 的 正则 化 

。 最 大 深度 - 函数 空间 上 的 约束 

平滑 叶片 值 - L2 正 则 化 对 叶片 的 权重 


回归 树 集成 定义 了 如 何 得 到 预测 值 ， 它 不 仅仅 可 以 
做 回归 ， 同 样 还 可 以 做 分 类 和 排序 。 有 具体 做 什么 任 
务 依赖 于 " 目标 轴 数 ， 的 定义 : 


。 使 用 平方 误差 : 可 以 得 到 用 于 回归 问题 的 


gradient boosted machine。 


。 使 用 对 数 损失 : 可 以 得 到 LogitBoost 用 于 分 


类 。 


3 ) Gradient Boosting ( 如何 学 习 ) 


在 这 一 节 中 我 们 将 正式 学 习 Gradient Boosting。 这 
里 ，xgboost 的 处 理 大 家 可 以 对 比 GBDT 模 型 ( 可 参 


考 ShowMeAI 文 章 图 解 机 器 学 习 | GBDT 模 型 详 
解 ) 来 理解 核心 


(1 ) 解决 方案 


目标 函数 : Obj=zi=1nl(yi,y^i+zk=1 
KQ(fk ) Obj=\Sigma {i=1jAnl(y_ ixhatfy} D+ 
\Sigma {k=1}^KAOmega (ff_k) Obj= 下 =1nl(yiyAi 
)+zk=1KQ(fk) 


在 做 GBDT 的 时 候 ， 我 们 没有 办 法 使 用 SGD， 因 为 
它们 是 树 ， 而 非 数值 向 量 一 一 也 就 是 说 从 原来 我 们 
部 芒 的 参数 空间 变 成 了 函数 空间 。 


。 参数 空间 : 学 习 模型 中 的 权重 。 


。 函数 空间 : 学 习 函 数 fff ,包括 函数 的 结构 和 
其 中 的 权重 。 


目标 函数 0O 打 = 32 11(0 贡 ) 十 29( 轧 ) 


而 
旦 
久 
四 

讶 
| 


XGBoost 最 全 解析 解决 方案 0 三 和 
人。 有。 每 次 过 代 添加 一 个 新 函数 " 
2 三 态 (zi) 十 户 (zi) 三 2 十 雹 (2 
二 站 证 

| @ 入 索 | 币 信 ShowMenal 研 究 中 心 | 


解决 方案 : 初始 化 一 个 预测 值 ， 每 次 运 代 添加 一 个 


新 阴 数 (fff) : 


yY^i(0)=0y^i1)=fTOXDD)=Y^iIUO)+TfT( 
xi)y^i(2)=f1(xi)+f2(xi)=yY^i(1)+f2 
(Xi)...Y^Ai(t)=>zk=1tfk(xi)=y^it-1) 
+ft(xi)xbeginfaligned \hat{fy}_iA{(0)} &=OAN 
\hat{y}_iA{()) & =f 1(X _D)=\hat(y}) _iA{(O))}+f 1(X DA 
\\hat{y})_i^{(2)) & =f 1(X_ iD)+f 2(x_D)=\hat{y) 
_iA{()+f 2(X_iDNMdots NA\hatfy} if & = 
\Sigma_{k=1yotf_ k(X_D)=\hat(y) if{(t-1T))}+f tx DAN 
\endfaligned} yAi(O)yAi(T)YAi(2)...YAit=O=f(XD)=y^ 
i(O)+f(XiD)= 介 (Xi)+f2(Xi)=yAi(1)+f2(XD)= 过 K=1tfK(Xi)=y^ 
it 一 1)+ 太 (Xi) 


。yA^Ai(t)xhatfy)_iAfdb} yAib) 是 第 ttt 次 迭代 的 
预测 值 。 


。yA^ilt-1)hatfy_iAf(tTDy yxit-1) 是 t- 1t1 
t-1 次 迭代 的 预测 值 。 


。ft(xi)ft(x ij ft(xi) 是 第 tt t 颗 树 ， 也 就 是 我 
们 第 ttt 次 色 代 需要 得 到 的 树 。 


(2 ) 目标 闻 数 变换 


: 根据 上 面 的 公式 ， 目 标 肯 数 可 以 做 如 下 变 


SS 中 


Objlt)=>zi=1nl(yi,y^ilt))+> 之 k=1tG( 
fk)=>i=1nl(yi,y^ilt-1)+ft(xi))+c( 
ft)+constantbeginfaligned} Obj^{(b} & = 
\Sigma_{fi=1}^Anl(y_ixhat{fy}_iAfb))+ASigma_{k=1)y^t 
Omega (f kiN& =\Sigma_{fi=1)^nl(y_ ixhat(y} 
_iA{tT)}+f tx DOmega (人 f t+constant 
\end{aligned} Obj 人 =Zi=1nl(yi,y^Ai(t))+ 之 K=1t2(fk 
)=Zi=1Tnl(yi,yAi(t--1)+ft(XxD))+G(ft)+Constant 


这 里 我 们 考虑 平方 损失 ， 此 时 目标 函数 又 可 以 变形 
为 : 


Obj(t)=>i=1nt2CYyYi-y^i(Ct=-T))Tt(X 

) +ft(xX SR 
\Sigma_{fi=1}^n(2(y_iA\hat(y} 

_iA{f(-T)D)ftX D)+f tx _D^A2)+Omega 

(人 蔬 +constant Obj 人 =zi=1n(2(yi-yAitt-1)) 代 (Xi)+ft(Xi 
)2)+C(ft)+Cconstant 


| 
目标 函数 00 = 2 的 二 ZE 站 
1 
XGBoost 最 全 解析 国生 攻守 生生 人 
ob 呈现 + Lo0 吕 

(5 


= 开交 和 直下 GD) O(A) +eonstant 
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第 二 步 : 所 以 我 们 的 目的 就 是 找到 ftf_t 葵 使 得 目 
标 浮 数 最 低 。 然 而 ， 经 过 上 面 初次 变形 的 目标 双 数 
仍然 很 复 洒 ， 目 标 丽 数 会 产生 二 次 项 。 


在 这 里 我 们 引入 泰勒 展开 公开 : 


f(Xx+Ax)=f(x)+f(x)Ax+1/2f(x)Ax2 
f(x+\Delta xsimeg f(X)+f(XNDelta x+1T/2f(XNDelta 
X^2 f(X+Ax)=f(X)+f(X)Ax+1/2f(X)Ax2 


。 令 f(x)=zi=1nlgyi,yAi(t))f(x)= 
\Sigma fi=1}^nl(y_ ixhatfy}_iAftby) foO=Zi=1n 
上 yiy^Ai(t)) 


。 令 人 Ax=ft\Delta x=f t Ax=f 
目标 函数 利用 泰勒 展开 式 就 可 以 变 成 : 


Objlt)=>zi=1n(l(yi,y^ilt-1))+gift( 
xi)+1/2hift(xi)2)+Glft)+constant 


Obj^{(b》simedq \Sigma_{fi=1)^n((y_iN\hat{y} 
_iA{tT))+g_if tx D+12h if tx _D^2)+Omega 
(人 蔬 +constant Obj 人 =Zi=1n(I(yiyAi(t-1))+gift(Xi 
)+1/2hift(Xxi)2)+42( 人 +Constant 


“gi=oy^(t-1)lIyiy^(t-1))9.i= 
\partial _f 人 hat{y}yA{tt-1T)NIY_iNhat{y}A{t-1T))) g 
=OY^(t-1)IYiy^A(t-1)) 


hi=oy^(t-1)21( 
partial _ 人 hat{y}^A{(t-T)} 
hi=oy^(t-1)21(yi,y^A(t-1) 


yi,y^(t-1T))hi= 
} 2I 全 hatty}^A{t-1)) 
) 


(| 
目标 函数 0O 杂 = 32 11( 风 亢 ) + 1Q( 庆 ) 
XGBoost 最 全 解析 国 下 和 全 革 S 
ob = 下 i(2 人 ni 一 给 光 oD)+Alo)9 二 OCT+consto 雹 
时 7j@+eajsJ 四 Te)Az+I/21(DJAm 
目标 函数 变换 O8 让 一 2 1 0) 十 吕 j(zi) 十 127 天 (za)2) 十 PR( 产 ) 二 constant 


ol 让 yt 区 让 二 下 微 信 ShowMeAl 研 究 中 心 | 
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第 三 部 : 把 常数 项 提出 来 ， 目 标 函 数 可 以 简化 为 


Objlt)=>zi=1n[gift(xi)+1/2hift(xiy) 
2]+wl(ft)+constantoObl^ftbsimeqd 
\Sigma_{fi=1}^n[g_if t(x_D)+1/2h if tx _D^2]+ 
Omega (f t+constant Obj(=>zi=1n[gift(x)+1/2hi 作 


(xj)2]+C(ft)+cConstant 


目标 函数 05 = 3821 亢 ) 二 231IQ( 厌 ) 


XGBoost 最 全 解析 国生 写生 人 


十 帮 巧 本 汪 夺 二 二 三 帮 汪 合生 汪汪 所 全 区 写 二 二 二 全 二 和 二 


0b0 吕 条 TgAeDTINAGO Ho Tomato 六 


凶 
吧 


本 证 避 二 丰 训 瑟 汪 区 后 安富 二 汪 呈 二 


目标 函数 变换 
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思考 : 为 什么 要 做 这 么 多 变化 而 不 直接 生成 树 ? 
。 理论 好 处 : 知道 我 们 在 学 习 什 么 ， 收 勾 。 
。 工程 好 处 : 回顾 监督 学 习 的 要 素 。 


O gi,hig jih_igihi 都 来 自 损失 函数 的 定 
又 

〇 函数 的 学 习 只 通过 gi, hig ji,h_igihi 依 
赖 于 目标 函数 。 


〇 O 当 被 要 求 为 平方 损失 和 逮 辑 损失 实现 
Bootsted Tree 时 ， 可 以 考虑 如 何 分 离 代码 
模块 。 
(3 ) 重新 定义 树 
在 前 面 ， 我 们 使 用 ft ( x )f_t(x) ft(x) 代 表 一 颗 树 ， 


在 本 小 节 ， 我 们 重新 定义 一 下 树 : 我 们 通过 叶子 结 
点 中 的 分 数 向 量 和 将 实例 映射 到 叶子 结 点 的 索引 映 
射 函数 来 定义 树 : 〈 有 点 儿 抽 象 ， 具 体 请 看 下 图 ) 


ft(x)=wq(x),wEeRT,dq:Rd 一 (11,2，,3， 
,ftx)=w qdq(x), win R^AT, q:RAdNightarrow 
MeftM1,2,3…., Tright f(x)=wq 
(X)wERTdq:Rd 一 { 人 ,2,3…. 


。 w ww 代表 树 中 叶子 结 点 的 权重 


。 qqd 代 表 的 是 树 的 结构 


傅 < 
ss 在 Pd 岂 代表 树 中 叶子 结 点 的 权重 恒 - 
瑚 (7) 一 aa(z)h WE 玉 9 再 一 人 23 和 忆 


XGBoost 最 全 解析 


< 全 


人 /全 \ 第 一 个 叶子 结 点 的 权重 为 +1 
全 会 人 @ 瘟 ,全 - 第 二 个 叶子 结 点 的 权重 为 0.1 
活 ; 0 + 盔 


第 三 个 叶子 结 点 的 权重 为 -1 


从 上 图 可 以 看 出 ， 共 有 3 个 叶子 结 点 ， 第 一 个 叶子 结 
点 的 权重 为 +{1， 第 二 个 叶子 结 点 的 权重 为 0.1， 第 三 
个 叶子 结 点 的 权重 为 -1 ; 其 中 ， 小 男孩 属于 第 1 个 叶 
子 结 点 ， 老 奶奶 属于 第 3 个 叶子 结 点 。 


(4 ) 定义 树 的 复杂 程度 


通过 下 面 的 式 子 定义 树 的 复杂 程度 ( 定义 并 不 是 唯 
一 的 ) 


Oft)=YT+12A 和 zj=1Twj2\Omega(fT= 
gamma T+frac{1i{2Nambda\Sigma_{i=1}^Tw ij^2 
G(f 人 =YT+21A>zj=1TWj2 


。YT\gammaTYT 代 表 了 叶子 结 点 的 个 树 


。12A 和 zj=1Twj2fracf1i{2Nambda 
\Sigma _{j=1}^Tw_j^2 21AZj=1Twj2 叶 子 结 点 分 
数 的 L2 Norm 


WE 
吉林 本 二 工 Awz 2 J 代表 叶子 结 点 的 个 检 世 
0 4 叶子 结 点 分 数 的 L2 Norm ” 唱 
XGBoost 最 全 解析 ER 受 
站 N | 
刘 meals 、 了 a 
1 \ Q =Y3 二 4(22 十 0.42+ 1 
] 天 
轨 了 -3+34(4+001+DTD 
定义 树 的 复杂 程度 _ 硬 
和 NGQUR 过 | 党 舍 ShowwMeAl 研 究 中 心 / 
5 httpWwww.showmeaitechy 


(5 ) 重新 审视 目标 组 数 


目标 函数 到 


O2 了 = 了 ie 外) 二 ge 上 La 二 QH) constan 本 
XGBoost 最 全 解析 县 历 王 嫩 5a)， 
Op 二 吕 iloAi(aa 二 天 (人 上 OU) + constant 


外 有 ooww 


adient Boosting 一 玖 lgewo(zi) 十 王 Nawo(zi] 十 7 十 二 Any 十 constont 


四 7 1 
重新 审视 目标 函数 5 2 1[(2icogi)u 十 可 (2 名 和 )u3 十 ?2 十 comstartt 
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定义 在 叶子 结 点 jjj 中 的 实例 的 集合 为 : 


上 j ={filgq(xi) =jy Dj=eftMilq(x_ D)=j vighty 1 
={ilq(xi)=j 


根据 每 棵 叶子 重新 定义 目标 函数 : 


Objlt)=>zi=1n[gift(xi)+12hift(xi)2 
]+(ft)+constant=>i=1n[giwdq(xi) 
+12hiwq(xi)2]+YT+12A 和 zj=1Twj2+ 
constant=>zj=1T[(>ieljgi)wj+12(> 
ieljhi+ 入 )WwWj2]+YT+constant 
\begin{faligned} Obj^{(t}& simed XSigma_{fi=1) 
^An[g_if tx_iD)+racf1i{2}h_if t(x_D^2]+Omega 

(人 攻 +constantN& = \Sigma_{fi=1}^n[g_iw_q(x_D)+ 
racf(1j{2}h_iw_ qd(x_D)^2]+gamma T+rac{1) 
{2Nambda\Sigma_{j=1}^Tw_j^2+constantN& = 
\Sigma_{1j=1)^TIASigma_{hepsilon | jg_Dw_ j+ 
racf{1i{2GASigma_{hepsilon | Ph_i+ 
\ambda)jw_j^2]+gamma T+constant \end{faligned) 
Obj(bD=zi=1n[gift(x)+21hift(xi)2]+C2( 付 
)+Constant=>i=1n[giwq(xi)+21hiwq(xi)2]+YT+21 

和 zj=1Twj2+constant=>j=1T[(Zieljgj)wj+21(>Zieljhi 
+A)Wj2]+YT+constant 


。 上 陈 是 T 个 独立 二 次 浮 数 的 和 


(6 ) 计算 叶子 结 点 的 值 


一 些 知 识 需 要 先 了 解 。 对 于 一 元 二 次 汶 数 : GXx+1 
2 HXx2 Gx+fracf1i{21Hx^2 Gx+21Hx2， 我 们 很 容 
易 得 到 这 个 函数 的 最 小 值 和 最 小 值 对 应 的 x x x。 


XGBoost 最 全 解析 
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全 胆 iowy 


计算 叶子 结 点 的 值 


> http:/www.showmeaitechy 


最 小 值 对 应 的 x x x 相 当 于 求 Gx+12Hx2 
Gx+\frac{1}{2}Hx^A2 Gx+21Hx2 的 导数 ， 使 导 
数 等 于 0 时 的 值 , 即 Gx+Hx=0Gx+Hx=0 
Gx+Hx=0 ,所 以 X=-G/HXx=-G/H x=-G/ 
HH。 


。 当 x=-G/HXx=-G/HXx=-G/H ,对 应 的 Gx+ 
12Hx2Gx+fracf1i{2Hx^2 Gx+21Hx2 的 值 
为 : -12*G21H-fracf1f2j*GA2/H -21 
*(G2/H 


也 就 是 : 


argminxGx+12Hx2=-GH,H>Ominx 
Gx+12Hx2=-12G2Hibeginfaligned 
argmin_x Gx+frac{1}{2JHx^2 & =-\frac{GIHH}, H>0 
Nmin _x Gx+frac{1i{2}1Hx^2 & =-\racf{1} 
{2}Nfrac{G^2J{H} endfaligned} argminxGx+21 
Hx2minxGx+21Hx2=-HG,H>0=-21HG2 


如 何 求 叶 子 结 点 最 优 的 值 ? 接着 继续 变化 目标 示 
数 : 


。 定 义 Gj=zieljgiG_j='\Sigma {iepsilon 
jg_iGi=zieligi 


。 定 义 Hj=zieljhiHj='\Sigma fihepsilon 
| jh_i Hi=zieljhi 


Objlt)=>zj=1T[(>zieljgi)wj+12(>ziel 
jhi+ 入 )WwWj2]+YT+constant=>zj=1T[G 
jwj+12(Hj+ 和 A)WwWj2]+YT+constant 
begin{aligned} Obj^{b}&= \Sigma_1=1) 
^T[ASigma_{hepsilon | 小 g_D)w_j+rac{1}{2) 
(Sigma_{fhepsilon | jh_i+ambda)w_j^2]+ 
gamma T+constantN& = \Sigma_ 1=1}^TIG jw j+ 
racf{1i{2}(H_j+ambda)w_ j^2]+gamma 工 
+Cconstant \end{faligned} Objt=Zj=1T[(>ieljgi)wWij 


+21(>ieljhi+A)wj2]+YT+constant=Z>j=1T[Gjwj+21(Hj 
+A)Wj2]+YT+constant 


目标 函数 又 
< Ob 生 下 1 外) 二 go 十 12hfeo 二 QH) 二 constar 铝 
XGBoost 最 全 解析 : 


S 
5 1 加 
0 瑟 ]a07 十 可 (3zen 放 吉 和》)u3 十 ?他 十 comstar 上 t 通 


工 
到 ZIGiu 本 可 ( 避 ; 中 和 A)z 十 ?了 十 comstay 丰 


计算 叶子 结 点 的 值 每 一 个 叶子 结 点 的 权重 的 最 优 值 目标 函数 的 最 优 值 
好 = 一 Gi/( 丁 + 0 果 = -二 


福 吉 向 信 ShowMeAl 研究 中 心 


假设 树 的 结构 q ( x ) q(x) q(X) 是 固定 的 ， 那 么 每 一 
个 叶子 结 点 的 权重 的 最 优 值 为 


wj*=-Gj/(Hj+ 入 )w jx*=-G_jMH_ jambdal 
wj*=-GjWHj+N) 


目标 邓 数 的 最 优 值 为 


Obj=-12zj=1TGj2Hj+A 入 +YTObij=- 
racf{1i{2NSigma_{1=1^TNrac{fG_j^2H_j+ 
Mambdal+gamma TObj=-21zj=1THj+AGj2+YT 


下 图 是 前 面 公 式 讲解 对 应 的 一 个 实际 例子 。 


| 
Ob7 = 72 G 十 * 克 四 
了 二 区 汪 人 丰 孔 | 7: 外 
下 
XGBoost 最 全 解析 atance 全 Greent statet es mm 昌 
1 hf 了 一 8 
加 一 
:从 。。 4 全 全 二 
五 = 但 } 及 三 二 三 加 十 直下 上 
和 僵 对 售 Gi = 四 Ca = 9 
二 所 请 
计算 叶子 结 点 的 值 登 . 
“ 意 。 和 册 信 ShowMeAl 研 究 中 心 | 


这 里 再 次 总 结 一 下 ， 我 们 已 经 把 目标 冰 数 变 成 了 仪 
与 且 。、 Ha Ye As 工 放 
H、\gamma、NMambda、T G、H、Y、A 和 、T 这 五 项 
已 知 参数 有 天 的 函数 ， 把 之 前 的 变量 ftf 他 ft 消灭 
挤 了 ， 也 就 不 需要 对 每 一 个 叶子 进行 打分 了 

那么 现在 问题 来 ， 刚 才 我 们 提 到 ， 以 上 这 些 是 假设 
树 结构 确定 的 情 网 下 得 到 的 结果 。 但 是 树 的 结构 有 
好 多 种 ， 我 们 应 该 如 何 确定 呢 ? 


(7 ) 贫 区 算法 生成 树 


上 一 部 分 中 我 们 假定 树 的 结构 是 固定 的 。 但 是 ， 树 
的 结构 其 实 是 有 无 限 种 可 能 的 ， 本 小 节 我 们 使 用 贪 
法 生成 树 : 


。 首先 生成 一 个 深度 为 0 的 树 (只 有 一 个 根 结 
氮 ， 也 叫 叶 子 结 吕 ) 


。 对 于 每 棵 树 的 每 个 叶子 结 点 ， 苹 试 去 做 分 私 


(生成 两 个 新 的 叶子 结 点 ， 原 来 的 叶子 结 点 不 
再 是 叶子 结 点 ) 。 在 增加 了 分 有 后 的 目标 闻 数 
前 后 变化 为 〈 我 们 希望 增加 了 树 之 后 的 目标 
效 小 于 之 前 的 目标 角 数 ， 所 以 用 之 前 的 目标 
效 戌 去 之 后 的 目标 冰 数 ) : 


到 
到 


Gain=12(GL2HL+A+GR2HR+A 入 -(G 
L+GR)2HL+HR+A 入 )-YGain=\fracf1}{2} 
(frac{G_L^2JH_L+ambdal+frac({G_R^21H_R+ 
Mambdal}-rac{(G_L+G_R)A2H_L+H_R+ 
Mambda)j)x>\gamma Gain=21(HL+AGL2+HR+AGR2 
-HL+HR+A(GL+GR)2)-Y 


GL2HL+A 和 AracfG_L^A21{H_L+lambda}l HL 
+AGL2 是 左面 叶子 结 点 的 值 


GR2HR+AfracfG_R^2H{H_R+ambdal 
HR+AGR2 是 右面 叶子 结 点 的 值 


(GL+GR)2HL+HR+A 和 racf{(G _L 
+G_R)^2H_L+H_R+ambdal HL+HR+A(GL 
+GR)2 是 未 分 裂 前 的 值 


Y\gammaY 是 引入 了 多 一 个 的 叶子 结 点 增加 的 
复杂 度 


接 下 来 要 考虑 的 是 如 何 寻 找 最 佳 分 裂 点 。 


例如 ， 如 果 X j x_j xj 是 年 龄 ， 当 分 裂 点 是 aaa 的 
时 候 的 增益 Gain Gain Gain 是 多 少 ? 


我 们 需要 做 的 仅仅 只 是 计算 每 一 边 的 gg g 和 h h 
h， 然 后 计算 


Gain=12(GL2HL+A+GR2HR+A 入 -(G 
L+GR)2HL+HR+A 入 )-YGain=\frac{f1}{2} 
(frac{G_L^2JH_L+ambdal+frac{G_R^A21H_R+ 
Mambdal}-rac{(G_L+G_R)A2H_L+H_R+ 
Mambdaj)>\gamma Gain=21(HL+AGL2+HR+AGR2 
-HL+HR+A(GL+GR)2)-Y 


ps G2 (Gz + GR)2 四 
如 何 寻找 最 佳 分 裂 点 Goi mn 人 5 ， 3 
NE 
左面 叶子 结 点 的 值 右面 叶子 结 点 的 值 ”未 分 裂 前 的 值 
XGBoost 最 全 解析 Si 
引入 了 多 一 个 的 叶子 
结 点 结 点 增加 的 复杂 度 卢 的 复杂 度 
他 全 名 碍 全 
lm gm 2 505, 史 
贪 雹 算法 生成 树 Gr= 外 十 外 GR 一 旬 十 久 十 由 
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对 排序 后 的 实例 进行 从 左 到 右 的 线性 扫描 就 足以 决 
定 特征 的 最 佳 分 裂 点 。 


所 以 ， 分 有 一 个 结 点 的 方法 是 : 


3 
本 拘 3 (Gz 上 GR) 本 
1 如 何 寻找 最 佳 分 裂 点 Gas -3 7 1 和 : 
左面 叶子 结 点 的 值 。 右面 叶子 结 点 的 值 “未 分 裂 前 的 值 
XGBoost 最 全 解析 /、 
引入 了 多 一 个 的 叶子 
分 裂 一 个 结 点 的 方法 、 结 点 增加 的 复杂 度 苦 
对 干 每 个 节点 对 干 每 个 特性 使 用 线性 要 秒 来 决定 采用 所 有 特征 中 


贪 于 算 法 生成 树 放 举 所 有 特 人 性。 按 特 性 值 对 实例 枯 序 。 该 特征 的 最 佳 分 烈 点 最 好 的 分 烈 方案 
讶 过 ShowMeAi 研究 中 心 | 


。 对 于 每 个 节点 ， 枚 举 所 有 特性 

。 对 于 每 个 特性 ， 按 特性 值 对 实例 排序 

使 用 线性 扫描 来 决定 该 特征 的 最 佳 分 裂 点 
采用 所 有 特征 中 最 好 的 分 改 方 案 


时 间 复 杂 上 度 : 


。 对 于 一 个 有 d 个 特征 ， 深 度 为 K 的 树 ， 计 算 的 时 
间 复 杂 度 为 : O(dKnlog n)。 其 中 每 一 层 需 要 花 
费 O(nlog m) 的 时 间 做 排序 。 


。 可 以 进一步 优化 〈 例 如 使 用 近似 或 缓存 排序 的 
特性 ) 。 


。 可 以 扩展 到 非常 大 的 数据 集 


(8 ) 如 何 处 理 分 类 型 变量 


一 些 树 学 习 算 法 分 别处 理 分 类 变量 和 连续 变量 ， 我 
们 可 以 很 容易 地 使 用 我 们 推导 出 的 基于 分 类 变量 的 


评分 公式 。 但 事实 上 ， 我 们 没有 必要 单独 处 理 分 类 


< 旦 . 
2 旦 ， 


| 


我 们 可 以 使 用 one-ho 访 式 处 理 分 类 变量 : 


zj={1ifxisincategory j0 otherwise 2zZ_ 儒 = 
Meftbeginfarray}{ 人 1T&xtext{fTif) xxtextfisin 
category } j NO0& Ntext { otherwise } 
\endfarray}right. zj={10 

fxis in category j otherwise 


如 果 有 太 多 的 分 类 的 话 ， 和 矩阵 会 非常 稀疏 ， 算 法 会 
优先 处 理 稀 足 数据 。 


(9 ) 修剪 和 正则 化 


回顾 之 前 的 增益 ， 当 训练 损失 减少 的 值 小 于 正则 化 
总 来 的 复杂 度 时 ， 增 益 有 可 能 会 是 负数 : 


Gain=12(GL2HL+A+GR2HR+A 入 -(G 
L+GR)2HL+HR+A 入 )-YGain=\frac{f1}{2} 
(frac{G_L^2JH_L+ambdal+frac({G_R^A21H_R+ 
Mambdal}-rac{(G_L+G_R)A2H_L+H_R+ 
Mambda))x>\gamma Gain=21(HL+AGL2+HR+AGR2 
-HL+HR+A(GL+GR)2)-Y 


如 何 导 接地 佳 分 用 点 con 0 2 ceo+c) 7 和 


- ER+A 有 瑟 十 HR 二 入 | 


左面 叶子 结 点 的 值 右面 叶子 结 点 的 值 ”未 分 裂 前 的 值 / \\ 攻 


XGBoost 最 全 解析 


和 TS fua 了 
模型 的 简单 性 和 可 预测 性 之 间 的 权衡 | 结 点 增加 的 复杂 度 


后 前 枝 (Post-Pruning) 

把 一 颗 树 生长 到 最 大 深度 ， 递 妥 修 疯 所 有 

分 烈 为 负 增 益 的 叶子 。 
人 搜索 | 微 信 ShowMeAI 研 究 中 心 | 


前 停止 (Pre-stopping) 
修剪 和 正则 化 当 最 佳 分 裂 是 负 效 时 ， 停 止 分 裂 ; 但 是 一 
个 分 裂 可 能 会 对 未 来 的 分 裂 有 共 


中 httpWwww.showmeaitechy 


此 时 就 是 模型 的 简单 性 和 可 预测 性 之 间 的 权衡 。 


。 前 停止 (Pre-stopping ) : 当 最 佳 分 裂 是 负数 
时 ， 停 止 分 裂 ; 但 是 一 个 分 裂 可 能 会 对 未 来 的 


。 后 剪 枝 (Post-Pruning ) : 把 一 颗 树 生长 到 最 
大 深度 ， 递 归 修 剪 所 有 分 裂 为 负 增 益 的 叶子 。 


2.XGBoost 核 心 原 理 归 纳 解析 


1 ) 目标 邓 效 与 泰勒 展开 


XGBoost 也 是 一 个 Boosting 加 法 模型 ， 每 一 步 迭 代 
只 优化 当前 步 中 的 子 模型 。 
第 m_ m m 步 我 们 有 : 


Fm(xi)=Fm-1(xi)+fm(xi)F mx D= 
F_{m-1)(xD)+fmXxDFmXxi)=Fm=-1(Xxi)+fm(xi) 


。fm(xi)f m(x ifm(xi) 为 当前 步 的 子 模型 。 


*。Fm-1(xi)F (tm-1(x iD)Fm-1(xi) 为 前 m - 
1 m-1 m=-1 个 完成 训练 且 固 定 了 的 子 模 型 。 


目标 函数 设计 为 了 经 验 风 险 ,， + 上 结构 风险 ， (〈 正 
则 项 ) : 


Obj=2i=1NLIFm(xi),yil]+>j=1mo0 
(fj)=2i=1NLIFm-1(xi)+fm(xi),yi] 
+2j=1molfj)beginfalignedloObj&= 

sum _{fi=1T^A{(N} Left[F_{mNeft(x_ 们 Night)， 
y_fIrightj+sum_1=1}^m Omegaxleft(f 人 1)Nright) 
\&=\sum _{fi=1)}^(N)L 
Meft[F_{m-1TANeft(x_{fNrighb+f fmNeft(x 人 right)， 
y_ 人 frightj+sum_1=1}(m Omegaxleft(f 人 right) 
\end{aligned} Obj=i=12 NLIFm(xi),yi]+j=1>2 mc 
)=i=1NLIFm-1(x)+fm(xi) yi]+j=1 2 mc 人 (人 ) 


。 正 则 项 Q (f)\Omega (f) (表示 子 模型 fff 
的 复杂 度 ， 用 于 控制 过 拟 合 。 


加 ou= xz 央 国 + 王 20) 忆 
己 目标 函数 是 [了 避 
XGBoost 最 全 解析 区 坪 长 
= zc 

认 1 知 1 厂 

瑟 aa 祝 作 a0 1 人 引 


目标 函数 与 系 勒 展开 


人 2 
1 


OU 世 Ri 同 + 天 必 名 二 用] +290 


| 的 坦 壶 | 向 售 
GP httpywwwshowmeaitechy | 人 宴 索 | 微 信 ShowMeAI 研 究 中 心 | 


在 数学 中 ， 我 们 可 以 用 泰勒 公式 近似 f(x )f(x) 
f(x)， 具 体 如 下 式 。XGBoost 对 损失 子 数 运用 二 阶 展 
开 来 近似 。 


f(xX0O0+AXx)=f(x0O)+f'(x0)Ax+f IIx0)2 
(Ax)2fx 0O+Delta x) Xapprox fxX_0O)+f 人 全 (xX_0) 
\Delta x + \racf{f^{(x_O)} 2} CDelta Xx)^2 f(XO0 
+Ax)=f(XO0)+f(XO)Ax+2f"(XO0)(Ax)2 


(更 多 数学 知识 推荐 阅读 ShowMeAI 的 Al 数学 基础 
系列 教程 图 解 Al 数学 基础 : 从 入 门 到 精通 系列 教 
程 ) 。 


对 应 XGBoost 的 损失 函数 ， 我 们 在 上 式 里 将 F m - 
1(xi)F fm-1(x_ ij) Fm_1(xD) 视 作 xO0x 0x0，f 
m(xi)f{mi(x iDfm(xi) 视 作 AxDeltaxAx，L( 
yi^ ,yi)LGhatty ijy iD)LyiAyiD 视 作 关于 yi^ 
\hat{ty_i} yi^ 的 函数 ， 得 到 : 


Obj=2i=1NI[ILIFm-1(xi),yil]+oLoF 
m-1(xi)fm(xi)+12o2Lo2Fm-1(xi)f 
m2(xi)]+>2j=1molfi)oOobl=sum fi=1^N 
\Big[ LIF_{m-1T} (x_iD)y iD +Nracfpartial LIApartial 
F_{m-1}(x iD 人 fm(x iD) +xrac(1Tif2y fracfpartial^2 
LIApartialA2 F_{m-1T} (x_i fm^A2(xX_ DABig] + 

sum _1=1iAmA\Omega (人 fj) Obj=i=12 NILIFm-1(Xi 
),y+oFm=-1(xi)oLfm(xi)+21o92Fm-1(xi)o2Lfm2(Xi 
)]+j=1 2 me 人 fj) 


[ 
目标 函数 加 
史 2 人 | 
05=y [ER 加 + 寺 守 名 o+ 二 2- 太 (og] +》 9( 全 
喜 它 BFmn-i(zi) 2 82Pn-i(zi) 气 
XGBoost 最 全 解析 旭 上 四 
汤 
O= 写 e9 + 扩 态 ea| -om) 
二 1 
目标 函数 与 泰勒 展开 2 浊 
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又 因 前 m - 1 m-1 m-1 个 子 模型 已 经 确定 了 ， 故 上 
式 中 除了 关于 fm ( x )f _ {m} (x) fm(x) 的 部 分 都 是 常 
数 ， 不 影响 对 fm (x)f {m} (x) fm(x) 的 优化 求解 。 
目标 函数 可 转化 为 : 


Obj=2i=1NI[gifm(xi)+12hifm2(xi) 
]+Olfm)oObj=sum fi=1^(NNeft[g 全 

f {mNleft(x_fNright)+xfracf1) (2 Ph 分 f{m)} 
^A{2Neft(x_{ 人 Nightiright+Omegaxleft(f {myright) 


Obj=i=12 N[gifm(x)+21hifm2(xb]+Q(fm) 


“。gi=oLoFm-1(xi)gi=xfracfpartialL} 
fpartial F_{m-1} (x_iD)} gi=oFm-1(xi)oL 


*。hi=o92Lo2Fm-1(xi)h i= 
racf\partial^2 LpartialA2 F_{m-1}(x_D)) hi 
=o2Fm-1(xi)o2L 


。 这 里 的 LLL 代 表 损失 浮 数 ， 衡 量 一 次 预测 的 
好 坏 程度 


“。 在 Fm-1(x)F {m-1( Fm-1(x) 确 定 了 的 
情况 下 ， 对 每 个 样本 点 iii 都 可 以 轻易 计算 出 
一 个 gig jigi 和 hih inhi 


2 ) XGBoost 的 正则 化 


实际 上 ，XGBoost 的 基 分 类 器 对 决策 树 和 线性 模型 
都 支持 ， 这 里 我 们 只 讨论 更 弟 见 的 “基于 树 , 的 情 
况 。 为 防止 过 拟 合 ，XGBoost 设 置 了 基于 树 的 复杂 
度 作 为 正则 项 : 


Of)=YT+12AIlwll2\Omegaf) =\gammaT 
+ fracf{1i{2} ambda ||wll^2 G@ 人 =YT+21AIwll2 


。TTT 为 树 ff f 的 叶 节点 个 数 


。Ww w WwW 为 所 有 叶 节 点 输出 回归 值 构成 的 向 量 ， 
| 1wl12 lwll^2 lwl2 为 该 向 量 L2 范 数 ( 模 
长 ) 的 平方 


。Y \gamma Y、 入 \ambda 和 为 超 参数 


作为 回归 树 ， 叶 子 节点 越 多 、 输 出 的 回归 值 越 大 ， 
树 的 复杂 度 越 高 。 


最 终 目 标 闻 效 如 下 : 


Obj=2i=1NI[gifm(xi)+12hifm2(xi) 
]+YT+12A 和 >2j=1Twj2oObj=\sum fi=1^AN 
\Big[g_ if m(x_iD)+rac{f1{2} hf mA^2(X_DNBig]+ 
gammaT + xfracf{1i{2} ambda \sum_ 1 =1)^T 
w_j^2 Obj=i=12N[gifm(x)+21hifm2(xi)]+YT+21 

入 j=1 > Twj2 
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下 面 是 一 个 数学 转换 处 理 ， 为 了 使 正则 项 和 经 验 风 
险 项 合并 到 一 起 。 我 们 把 在 样本 层面 上 求 和 的 经 验 
风险 项 ， 转 换 为 叶 世 点 层面 上 的 求 和 。 


定义 节点 jj 上 的 样本 集 为 1(j) ={xilq(xi)=j} 
I0)=Mx_ilq(x_D)=iN 10)={xilq(xi)=， 其 中 q(xi) 
dq(x_i) q(xi) 为 将 样本 映射 到 叶 节 点 上 的 索引 函数 ， 
叶 节 点 j jj 上 的 回归 值 为 wj=fm(xi),iel(j) 
w_j=fm(x_D);,iNn (0) wj=fm(xi),ie 10)。 


Obj=2j=1T[(2islj)gi)wj+12(>i 
El(j)hi+ 和 A)wj2]+YTObj='\sum 1{=1}^(T) 
\Bigl Csum_{Nn 10 gpD) wj +xracf12sum 1 
Mn 1I0} hi+xambda) wj^2\Bigl + \gamma 工 
Obj=j=12TIGEl 和 gbwj+21(el(O)2hi+Awj2]+YT 


进一步 简化 表达 , 令 2iel(j)gi=Gjsum ii 
in ID)} gji=G j ziel)gi=Gj，2ielj)hi=H 
jsum_{Nn Il h_i=H_j ziel)hi=Hj 注 意 这 里 G 和 
H 都 是 天 于 jjj 的 函数 : 


Obj=2j=1TI[Gjwj+12(Hj+A 和 A)wj2]+Y 
TObj='\sum_ 1=1^(T Big[G jw j +xracf1}{2) 
(H_j + ambda) w_j^2 \Bigl + \gamma 工 
Obj=j=12T[Gjwj+21(Hj+A)wWj2]+YT 
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转化 到 这 个 形式 后 ， 我 们 可 以 看 出 ， 若 一 棵 树 的 结 
构 已 经 确定 ， 则 各 个 节点 内 的 样本 (xi,yi,gi,hi 
) (x_iy jig_i5h_D) (xiyigihi) 也 是 确定 的 , 即 GjG 
Gj，HjH_ jH、TTT 被 确定 ， 每 个 叶 节 点 输出 的 
回归 值 应 该 使 得 上 了 式 最 小 ， 由 二 次 函数 极 值 点 : 


wjr=-GjHj+A 和 wj^=-fracfG jl{H_j+ambda} 
Wj*=--Hj+AGj 


烛 
目标 函数 00 = > [2 十 了 本 到 Mo 十 季 
1 sl 
XGBoost 最 全 解析 县 二 
树 的 评分 也 可 以 理解 成 所 有 叶 节点 的 评分 之 和 吕 
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按 此 规则 输出 回归 值 后 ， 目 标 函 数值 也 就 是 树 的 评 
分 如 下 公式 ， 其 值 越 小 代表 树 的 结构 越 好 。 观 察 下 
式 ， 树 的 评分 也 可 以 理解 成 所 有 叶 节 点 的 评分 之 
和 : 


Objr=2j=1T(-12Gj2Hj+ 和 +Y)Obij^= 
\Sum_1=1^TABig( -fracf1}{2Nrac{(G_j^2)H_j + 
Mambdal + \gamma \Big) Obj*=j=1T(-21Hj+AGj2 
+Y) 


3 ) 万 点 分 八 难 则 


我 们 之 前 文章 【决策 树 模型 详解 】 里 给 大 家 讲 到 了 
决策 树 模 型 是 递归 生长 形成 的 ， 而 XGBoost 的 子 模 
型 树 也 一 样 ， 需 要 要 依赖 节点 递归 分 裂 的 贪心 付 则 
来 实现 树 的 生成 。 


我 们 之 前 文章 决策 树 模 型 详解 里 给 大 家 讲 到 了 决策 
树 模型 是 递归 生长 形成 的 ， 而 XGBoost 的 子 模型 树 
也 一 样 ， 需 要 要 依赖 记 点 赐 归 分 有 裂 的 贪心 付 则 来 实 
现 树 的 生成 。 


(1 ) 贪心 准则 


XGBoost 子 树 的 基本 处 理 思 路 和 CART 一 样 ， 会 对 
特征 值 排序 后 遍历 划分 点 ， 将 其 中 最 优 的 分 裂 收 益 
作为 该 特征 的 分 裂 收益 ， 选 取 具 有 最 优 分 裂 收 益 的 
特征 作为 当前 节点 的 划分 特征 ， 按 其 最 优 划 分 点 进 
行 二 叉 划分 ， 得 到 左右 子 树 。 


| 
国 
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上 图 是 一 次 节点 分 裂 过 程 ， 很 自然 地 ， 分 裂 收 益 是 
树 A 的 评分 威 去 树 B 的 评分 。 虚 线 框 外 的 叶 节 点 ， 即 
非 分 裂 节 点 的 评分 均 被 抵消 ， 只 留 下 分 裂 后 的 LR 节 
点 和 分 裂 前 的 S 节 点 进行 比较 ， 因 此 分 裂 收 益 的 表 

达 式 为 : 


Gain=12[GL2HL+A+GR2HR+A 入 -(G 
L+GR)2HL+HR+A 入 ]-YGain =racf1}{2)} 
\Big[ frac{G_L^2}{H_L+ambdal + rac{G_R^2)} 
{N_R+ambdal -frac{(G_L+G_R)^2H_L+H_R+ 
MambdaNBigl]\gamma Gain=21[HL+AGL2+HR 
+AGR2-HL+HR+A(GL+GR)2]-Y 


(2 ) 近似 算法 


基于 性 能 的 考量 ，XGBoost 还 对 贪心 准则 做 了 一 个 
近似 版 本 ， 简 单 说 ， 处 理 方式 是 ' 将 特征 分 位 数 作 
为 划分 候选 点 。 这 样 将 划分 候选 点 集合 由 全 样本 
加 的 盟 历 缩 威 到 了 几 个 分 位 数 之 间 的 志 历 。 


展开 来 看 ， 特 征 分 位 数 的 选取 还 有 global 和 local 两 
种 可 选 策略 : 


。 global 在 全 体 样 本 上 的 特征 值 中 选取 ， 在 根 节 
点 分 裂 之 前 进行 一 次 即 可 ; 


。 local 则 是 在 待 分 改 万 点 包含 的 样本 特征 值 上 选 
取 ， 每 个 节点 分 裂 前 都 要 进行 。 


这 两 种 情况 里 ， 由 于 global 只 能 划分 一 次 ， 其 划分 
粒度 需要 更 细 。 


XGB 原 始 paper 中 对 Higgs Boson 数 据 集 进行 了 实 
验 ， 比 较 了 精确 贪心 准则 、global 近 似 和 local 近 似 
三 类 配置 的 测试 集 AUC， 用 eps 代 表 取 分 位 点 的 粒 
度 ,如 eps=0.25eps=0.25 eps=0.25 代 表 将 数据 
集 划 分 为 1/0.25=4 个 buckets， 发现 

global (eps=0.05 ) 和 local (eps=0.3 ) 均 能 达到 和 
精确 贪心 准则 几乎 相同 的 性 能 。 


XGBoost 工 具 包 支 持 上 述 提 到 的 3 类 配置 。 


(3 ) 加 权 分 位 数 


查看 目标 函数 Obj=2i=1N[gifm(xi)+12 
hifm2(xi)1+Q(fm)oObi=sum {i=1 


AINNeftlg 他 ffmjNeft(x firighb+racf1}f2} h 从 
f {m}^(2Neft(x_ fright)rightl+Omega 

Mefttf fmyvight Obj=i=1N[gifm(xi)+21hifm2(xi 
)]+GO(fm)， 令 含 导 为 0 易 得 fm*(xi)=-ginhi 
f_mA*(x_i)=-Yracfg_ifh_i} fmx(xib)=-higi， 此 目标 函 
数 可 理解 为 以 hi h_i hi 为 权重 ，- gihi-fracfg 站 
{fh_i} -higi 为 标签 的 二 次 损失 函数 : 


Obj=2i=1N[gifm(xi)+12hifm2(xi) 
]+Olfm)=>i=1N12hi[fm(xi)--(-gi 
hi)]2+4 人 lfm)+cCnxbeginfaligned}l Obj &= 
Sum_{i=1TIANABig[g if m(x _D)+racf1){2) Phi 
f_m^2(x_iNBigl]+Omega (fm 和 N\& =A\sum fi=1)^N 
rac{1}{2} h_ABig[ fm(x_D)-(Afracfg_ ifh 让) 
\Biglj^2+Omega (fm) +C endfalignedl O 〇 bj 
=i=12N[gifm(x)+21hifm2(xi)]+GO(fm)=i=12N21hi 
[fm(xi)-(-higi)]2+G(fm)+C 


在 近似 算法 取 分 位 数 时 ， 实 际 上 XGBoost 会 取 以 二 
阶 导 hi Ph_i hi 为 权重 的 分 位 数 (Weighted Quantile 
Sketch ) ， 如 下 图 表示 的 三 分 位 。 
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4 ) 列 采 样 与 学 习 率 
XGBoost 为 了 进一步 优化 效果 ， 在 以 下 2 个 方面 进行 


了 进一步 设计 : 
。 列 采样 


〇 O 和 随机 森林 做 法 一 致 ， 每 次 节点 分 裂 并 不 
是 用 全 部 特征 作为 候选 集 ， 而 是 一 个 子 
集 。 

〇 O 这 么 做 能 更 好 地 控制 过 拟 合 ， 还 能 减少 计 
算 开 销 。 

O 也 叫 步 长 、shrinkage， 有 具体 的 操作 是 在 
每 个 子 模型 前 〈 即 每 个 时节 点 的 回归 值 


上 ) 乘 上 该 系数 ， 不 让 单 颗 树 太 激进 地 拟 
合 ， 留 有 一 定 空间 ， 使 冯 代 更 稳定 。 


XGBoost 默 认 设 定 为 0.3。 


5 ) 特征 献 失 与 称 跑 性 


XGBoost 也 能 对 缺失 值 处 理 ， 也 对 特征 稀 足 问题 
(特征 中 出 现 大 量 的 0 或 one-hot encoding 结 果 ) 做 
了 一 些 优 化 。XGBoos 衣 “上 稀疏 感知 ， 策略 来 同时 
处 理 这 两 个 问题 : 


。 简单 说 ， 它 的 做 法 是 将 缺失 值 和 稀疏 0 值 等 同 
视 作 缺 失 值 ， 将 其 ' 绑 定 4 在 一 起 ， 分 裂 节 点 
的 遍历 会 跳 过 缺失 值 的 整体 。 这 样 大 大 提高 了 
0 值 在 XGB 中 被 处 理 为 数值 意义 上 的 0 还 是 
NA， 需 要 结合 具体 平台 的 设置 ， 预 处 理 区 分 开 
作为 数值 的 0 (不 应 该 被 处 理 为 NA ) 和 作为 稀 
中 值 的 0 (应 该 被 处 理 为 NA ) 。 


> 裂 节点 ，NA 的 方向 有 两 种 情 


况 ， 在 此 基础 上 对 非 缺失 值 进行 切 分 遍历 。 


如 上 图 所 示 ， 若 某 个 特征 值 取 值 为 1 ,2 ，5 和 大 量 
的 NA，XGBoost 会 丙 历 以 上 6 种 情况 〈3 个 非 缺失 值 
的 切 分 点 x 缺 失 值 的 两 个 方向 ) ， 最 大 的 分 裂 收益 
就 是 本 特征 上 的 分 裂 收 益 ， 同 时 ，NA 将 被 分 到 右 节 


AAAO 


3.XGBoost 工 程 优 化 


1 ) 并 行列 块 设计 


XGBoost 将 每 一 列 特征 提前 进行 排序 ， 以 块 
(Block ) 的 形式 储存 在 缓存 中 ， 并 以 这 引 将 特征 值 
和 梯度 统计 量 对 应 起 来 ， 每 次 世上 点 分 裂 时 会 重复 调 
用 排 好 序 的 块 。 而 且 不 同 特征 会 分 布 在 独立 的 块 
中 ， 因 此 可 以 进行 分 布 式 或 多 线程 的 计算 。 
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2 ) 缓存 访问 优化 


ee 二 
gi ,hi 会 导致 访问 的 内 存 空 间 不 一 致 ， 进 而 降低 缓存 
的 命 0 影响 算法 效率 。 为 解决 这 个 问题 ， 
XGBoost 为 每 个 线程 分 配 一 个 里 独 的 连续 缓存 区 ， 
用 来 存放 梯度 信息 。 


3 ) 核 外 块 计算 


数据 量 非常 大 的 情形 下 ， 无 法 同时 全 部 载 入 内 存 。 
XGBoost 将 数据 分 为 多 个 blocks 储 存在 硬盘 中 ， 使 
用 一 个 独立 的 线程 专门 从 磁盘 中 读 取 数 据 到 内 存 
中 ， 实 现 计算 和 读 取 数据 的 同时 进行 。 

为 了 进一步 提高 磁盘 读 取 数 据 性 能 ，XGBoost 还 使 
用 了 两 种 方法 : 


。@O 讨 缩 block， 用 解 讨 缩 的 开销 换取 磁盘 读 取 
的 开销 。 


。Q@ 将 block 分 散 储存 在 多 个 磁盘 中 ， 提 高 磁 
吞吐 量 。 


4.XGBoost vs GBDT 


我 们 对 之 前 讲解 过 的 GBDT (参考 ShowMeAI 文 章 
【GBDT 算 法 详解 】 ) 和 这 里 的 XGBoost 做 一 个 对 
比 总 结 。 


加 | 
机 器 学 习 算法 在 算法 基础 上 还 有 一 些 工 程 实现 方面 的 人 化。 . 凶 
使 用 的 是 栅 失 函数 一 阶 导 数 ，。 还 使 用 了 栅 失 函数 二 阶 导数 本 
XGBoost 最 全 解析 相当 二 函数 空间 中 的 梯度 下 降 。 相当 二 函数 空间 中 的 牛 冰 法 
村 显 趟 地 加 入 了 正则 项 来 榨 制 模型 的 复杂 度 
能 有 效 防止 过 的 合 站 
采用 了 随机 森林 中 的 做 ] 
每 次 节点 人 和光 W 呆 必 
缺失 值 | 无 缺失 值 处 理 策略 运用 稀 瑚 感知 策略 处 理 缺 失 值 
并 行 高 效 列 块 设 | 和 
| Ce 这 | 短信 ShowWMeAl 研 究 中 心 | 


。GBDT 是 机 器 学 习 算法 ，XGBoost 在 算法 基础 
上 还 有 一 些 工 程 实现 方面 的 优化 。 


。GBDT 使 用 的 是 损失 函数 一 阶 导 数 ， 相 当 于 肯 
数 空间 中 的 梯度 下 降 ; XGBoost 还 使 用 了 损失 
邓 数 二 阶 导 数 ， 相 当 于 函数 空间 中 的 牛顿 法 。 


。 正则 化 : XGBoost 显 式 地 加 入 了 正则 项 来 控制 
模型 的 复杂 度 ， 能 有 效 防止 过 拟 合 


。 列 采样 : XGBoost 采 用 了 随机 和 森林 中 的 做 法 ， 
每 次 节点 分 裂 前 进行 列 随机 采样 。 


。 缺失 值 : XGBoost 运 用 稀 朴 感知 策略 处 理 缺 失 
值 ，,GBDT 无 缺失 值 处 理 策略 。 


。 并 行 高 效 : XGBoost 的 列 块 设 计 能 有 效 支 持 并 
行 运算 ， 效 率 更 优 。 


更 多 监督 学 习 的 算法 模型 总 结 可 以 查看 ShowMeAI 
的 文章 Al 知识 技能 速 碍 | 机 器 学 习 - 监 督学 习 。 
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之 前 ShowMeAlI 对 强大 的 boosting 模 型 工具 
XGBoost 做 了 介绍 〈 详 见 ShowMeAI 文 章 图 解 机 器 
学 习 | XGBoost 模 型 详解 ) 。 本 篇 我 们 来 学 习 一 下 
GBDT 模 型 〈( 详 见 ShowMeAI 文 章 图 解 机 器 学 习 | 
GBDT 模 型 详解 ) 的 另 一 个 进化 版 本 : LightGBM。 


LightGBM 是 微软 开发 的 boosting 集 成 模型 ， 和 
XGBoost 一 样 是 对 GBDT 的 优化 和 高 效 实现 ， 原 理 
有 一 些 相似 之 处 ， 但 它 很 多 方面 比 XGBoost 有 着 更 
为 优秀 的 表现 。 官 方 给 出 的 这 个 工具 库 模 型 的 优势 
如 下 : 


。 更 快 的 训练 效率 

。 低 内 存 使 用 

。 更 高 的 准确 率 

。 支持 并 行 化 学 习 

。 可 处 理 大 规模 数据 

。 支持 直接 使 用 category 特 征 


下 图 是 一 组 实验 数据 ， 在 这 份 实验 中 ，LightGBM 比 
XGBoost 快 将 近 10 倍 ， 内 人 存 占 用 率 大 约 为 XGBoost 
的 1/16， 准 确 率 也 略 有 提升 。 


速度 快 将 近 10 倍 ， 内 存 占用 率 大 约 为 116， 准 确 率 也 略 有 提升 2 
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1.LightGBM 动 机 


互联 网 领域 的 算法 应 用 ， 通 单衣 后 都 有 海量 的 大 数 
据 。 深 度 学 习 中 一 系列 神经 网 络 算法 ， 都 是 以 mini- 
batch 的 方式 喂 数据 迭代 训练 的 ， 总 训练 数据 量 不 受 
内 存 限制 。 


但 我 们 用 到 的 机 器 学 习 算 法 ， 比 如 GBDT (参考 
ShowMeAI 文 章 GBDT 详 解 ) 在 每 一 次 色 代 的 时 
候 ， 都 需要 遍历 整个 训练 数据 多 次 。 


。 如果 把 整个 训练 数据 一 次 性 故 进 内 存 ， 会 明显 
限制 训练 数据 的 大 小 。 

。 如 果 不 装 进 内 存 ， 反 复 地 读 与 训练 数据 又 会 消 
耗 非常 大 的 时 间 。 


面 对 工 业 级 海量 的 数据 ， 普 通 的 GBDT 算 法 无 法 满 
需求 。LightGBM 提 出 的 主要 原因 之 一 ， 就 是 为 了 
解决 上 述 大 数据 量 级 下 的 GBDT 训 练 问 题 ， 以 便 工 


业 实 践 中 能 支撑 大 数据 量 并 保证 效率 。 


2.XGBoost 优 缺点 


我 们 之 前 介绍 过 强大 的 XGBoost ( 详 见 ShowMeAI 
文章 图 解 机 器 学 习 | XGBoost 模 型 详解 ) ， 但 
XGBoost 也 依旧 存在 一 些 缺 点 ，LightGBM 针 对 其 中 
的 一 部 分 进行 了 调整 优化 。XGB 优 缺点 归纳 如 下 : 


1 ) 精确 贫 心 算法 

轮 友 代 时 ， 都 需要 饥 历 整个 训练 数据 多 次 。 如 果 把 
整个 训练 数据 装 进 内 存 则 会 限制 训练 数据 的 大 小 ; 
如 果 不 装 进 内 存 ， 反 复 地 读 写 训练 数据 又 会 消耗 非 
常 大 的 时 间 。 


Gain=12[GL2HL+A+GR2HR+A 入 -(G 
L+GR)2HL+HR+A 和 入-Y]Gain=rac{1){2Neft 
[frac{(G_{LIA(2)HH_ 人 LI+ambdal + \frac{G_{RI) 
^{2}H_{R}+Nambdal - 
Yracfleft(G_{L}+G_{RJNight^A{2}H_{D+H_{TR)}+ 
ambdal - \gamma right ] Gain=21[HL+AGL2+HR 
+AGR2-HL+HR+A(GL+GR)2-Y] 


| 
多 加 
< 每 轮 适 代 时 ， 都 需要 遍历 整个 训练 数据 多 次 。 申 
六 
LightGBM 模 型 要 
ghtGBM 模 型 详解 总 司 本 优点 : 可 以 拉 精确 的 划 
con- 引 2 (cz+cm ] 分 条 件 。 品 
了 引 吏 +X+ 天 + 丽 + 大 + 

》 去 CR 人 全 ~、 铀 点 : 计算 量 巨大 内存 
精确 仿 心 算 分 加 之 后 的 | | 分割 之 后 的 | | 分 因 之 前 的 | | 增加 一 个 节点 | ， 占 用 巨大 、 另 产生 过 祝 合 * 
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。 优点 : 可 以 找到 精确 的 划分 条 件 。 
。 和 缺点 : 计算 量 巨大 、 内 存 占用 巨大 、 易 产生 过 
拟 合 。 


2 ) Level-wise 生 长 方式 


XGBoost 采 用 Level-wise 的 增长 策略 : 基于 层 进 行 
生长 ， 直 到 达到 停止 条 件 。 这 种 增长 策略 方便 并 行 
计算 每 一 层 的 分 裂 节 点 ， 提 高 了 训练 速度 ， 。 
也 因为 节点 增益 过 小 增加 了 很 多 不 必要 的 分 裂 ， 
加 了 计算 量 。 


| 
基干 层 进行 生长 ， 直 到 达到 停止 条 件 


LightGBM 模 型 详解 


Rootna us 优点 : 可 以 使 用 多 线程 、 
可 以 内 速 情 确信 心算 法 。 凡 


曙 、 -页 靶 阔 缺点 : 效率 低下 ， 可 能 产 


Level-wise 生 长 方式 外 生 不 必要 的 叶 结 点 。 
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。 优 点 : 可 以 使 用 多 线程 、 可 以 加 速 精确 贪心 算 


法 。 
。 缺点 : 效率 低下 ， 可 能 产生 不 必要 的 叶 结 损 。 


3 ) 对 cache 优 化 不 友好 


在 预 排 序 后 ， 特 征 对 梯度 的 访问 是 一 种 随机 访问 ， 
并 且 不 同 的 特征 访问 的 顺序 不 一 样 ， 无 法 对 cache 
进行 优化 。 同 时 ， 在 每 一 层 长 树 的 时 候 ， 需 要 随机 
访问 一 个 行 索 引 到 叶子 索引 的 数组 ， 并 且 不 同 特征 
访问 的 顺序 也 不 一 样 ， 也 会 造成 较 大 的 cache 


miss。 


3.LightGBM 优 化 点 


上 个 部 分 其 实 也 是 LightGBM 作 者 们 ， 构 建新 算法 时 
着 重 优 化 的 点 。 概 括 来 说 ，LightGBM 主 要 有 以 下 特 


。 基 于 Histogram 的 决策 树 算 法 


。 带 深 度 限 制 的 Leaf-wise 的 叶子 生长 策略 

。 直方 图 做 差 加 速 

。 直接 支持 类 别 特征 ( Categorical Feature ) 
。 Cache 命 中 率 优 化 

。 基于 直方 图 的 稀 中 特 征 优化 

。 多 线程 优化 


4. 刀 策 树 算 法 


1) XGBoost : Pre-sorted 算 法 


XGBoost 使 用 的 是 Pre-sorted 算 法 ， 能 够 更 精确 的 
找到 数据 分 隔 点 。 


。 首先 ， 对 所 有 特征 按 数值 进行 预 排序 。 

。 其 次 ， 在 每 次 的 样本 分 着 时 ， 用 O(#adata) 的 代 
价 找到 每 个 特征 的 最 优 分 割 点 。 

。 最 后 ， 找 到 最 后 的 特征 以 及 分 着 点 ， 将 数据 分 
有 袭 成 堪 右 两 个 子 避 。 


这 种 pre-sorting 算 法 能 够 准确 找到 分 裂 点 ， 但 是 在 
空间 和 时 间 上 有 很 大 的 开销 。 


。 由 于 需要 对 特征 进行 预 排序 并 且 需 要 保存 排序 


后 的 索引 值 ( 为 了 后 续 快 速 的 计算 分 裂 点 ) ， 
因此 内 存 需 要 训练 数据 的 两 倍 。 

。 在 遍历 每 一 个 分 割 点 的 时 候 ， 都 需要 进行 分 袭 
增 蔡 的 计算 ， 消 耗 的 代价 大 。 


2 ) LightGBM : 直方 图 算法 


LightGBM 使 用 的 是 直方 图 算法 (histogram 
algorithm ) ， 占 用 的 内 存 更 低 ， 数 据 分 割 的 复杂 
更 低 。 直 方 图 算法 思想 是 : 


IE 
占用 的 内 存 更 低 ， 数 据 分 割 的 复杂 度 更 低 因 
思想 : 将 连续 的 浮 点 特征 离 艇 成 k 个 高 艇 值 ， 并 构造 宽 度 为 k 的 Histogram 。 写 
LightGBM 模 型 详解 \ 
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。 将 连续 的 浮 点 特征 离散 成 k 个 离散 值 ， 并 构造 


宽度 为 k 的 Histogram。 
。 遍历 训练 数据 ， 统 计 每 个 离散 值 在 直方 图 中 的 
累计 统计 量 。 


。 在 进行 特征 选择 时 ， 只 需要 根据 直方 图 的 离散 
值 ， 静 历 寻 找 最 优 的 分 割 点 。 


(1) 内 存 优化 


直方 图 算法 可 以 很 大 程度 降低 内 存 消耗 ， 它 不 仅 不 
需要 额外 存储 预 排序 的 结果 ， 还 可 以 只 保存 特征 离 
散 化 后 的 值 (一 般 用 8 位 整 型 存储 就 足够 了 ) 。 


原理 : 不 需要 额外 存储 预 排序 的 结果 ， 还 可 以 只 保存 特征 离散 化 后 的 值 -3 


tore sorted index and 
ature val 


如 图 所 示 ， 用 8 位 整 型 存储 ， 内 和 存 消耗 可 以 降低 为 原 
来 的 1/8。 


(2 ) 计算 量 优化 


应 用 直方 图 算法 ， 计 算 代 价 也 大 幅 降 低 ， 预 排序 算 
法 每 遍历 一 个 特征 值 就 需要 计算 一 次 分 裂 的 增益 ， 
而 直方 图 算法 只 需要 计算 k 次 (ke 可 以 认为 是 间 

数 ) ， 时 间 复 杂 度 从 O(#data*#feature) 直 接 优化 到 
O(k##features)。 


(3 ) 注意 点 


直方 图 算法 的 理解 和 注意 点 如 下 : 


全 


。 使 用 分 桶 bin 蔡 代 原 始 数据 相当 于 增加 了 正则 


化 。 


。 使 用 分 桶 bin 意 味 着 很 多 数据 的 细 有 特征 示 失 ， 


相似 的 数据 如 果 划 分 到 相同 的 桶 中 ， 数 据 之 间 
的 差异 就 无 法 捕获 了 。 


。 分 桶 bin 数 量 决定 了 正则 化 的 程度 ，bin 越 少 惩 


罚 越 严重 ， 欠 拟 合 风险 越 高 。 


.因为 预先 设 定 了 bin 的 范围 ， 构 建 直方 图 时 不 需 


要 对 数据 进行 排序 。 


。 直方 图 保存 ' 划分 国 值 , 、“ 当前 bin 内 样本 


数 : 、“ 当前 bin 内 所 有 样本 的 一 阶梯 度 和 ， 。 


。 畏 值 的 选取 是 按照 直方 图 从 小 到 大 遍历 ， 使 用 


了 上 面 的 一 阶梯 度 和 ， 目 的 是 得 到 划分 之 后 
^loss 最 大 的 特征 及 畏 值 。 


(4 ) 直方 图 算法 优 缺 点 


。Histogram 算 法 并 不 是 完美 的 。 由 于 特征 被 离 
散 化 后 ， 找 到 的 并 不 是 很 精确 的 分 着 点 ， 所 以 
会 对 结果 产生 影响 。 但 在 实际 的 数据 集 上 表 
明 ， 离 散 化 的 分 裂 点 对 最 终 的 精度 影响 并 不 
大 ， 甚 至 会 好 一 些 。 原 因 在 于 decision tree 本 
身 就 是 一 个 弱 学 习 器 ， 采 用 Histogram 算 法 会 
起 到 正则 化 的 效果 ， 有 效 地 防止 模型 的 过 拟 


人 
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。 时间 上 的 开销 由 原来 的 O(#qdata*#features) 降 
到 O(k*#ifeatures)。 由 于 高 散 化 ，#bin 远 小 于 
#data， 因 此 时 间 上 有 很 大 的 提升 。 


Histogram 算 法 还 可 以 进一步 加 速 。 一 个 叶子 世上 点 的 
Histogram 可 以 直接 由 父 书 点 的 Histogram 和 兄弟 区 
点 的 Histogram 做 差 得 到 。 一 般 情况 下 ， 构 造 

Histogram 需 要 遍历 该 叶子 上 的 所 有 数据 ， 通 过 该 方 
法 ， 只 需要 遍历 Histogram 的 k 个 捅 。 速 度 提升 了 一 


倍 。 


5. 快 案 树 生长 案 略 


1 ) 树 生 长 案 略 调整 


直方 图 算法 之 上 ，LightGBM 进 行进 一 步 的 优化 。 它 
没有 使 用 大 多 数 GBDT 工 具 使 用 的 按 层 生 长 (Level- 
wise ) 的 决策 树 生 长 策略 ， 而 使 用 了 带 有 深度 限制 
的 按 叶 子 生长 (Leaf-wise ) 算法 。 


(pm,fm,vm)=arg min (p,f,v)LCTm-=-1 
(X).splt (p,f,v),Y)Neft(p_ {m),f{m)， 
v_{mjright)=varg min _{(p,f V)) Left(T_ {m-1T}(X) . 
operatorname{fsplit(p, f v, YNrightb (pm,fm,vm 
)=arg(p,fv)minL(Tm-=-1(X).split(p,fvV),Y) 


Tm(Xx)=Tm-1(Xx).split (pm,fm,vm) 
TtmX)=T tm-TX) 
operatorname{splitNeft(p_{m) ,fm v (might) 
Tm(X)=Tm-=-1(X).split(pm,fm,vm) 
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2 ) XGBoost : Level-wise 


XGBoost 采 用 的 是 Level-wise( 按 层 生 长 ) 策略 生 
长 的 ， 能 够 同时 分 裂 同 一 层 的 叶子 ， 从 而 进行 多 线 
程 优 化 ， 不 容易 过 拟 合 。 


但 不 加 区 分 的 对 竺 同一 层 的 叶子 ， 市 来 了 很 多 没 必 
要 的 开销 。 因 为 实际 上 很 多 叶子 的 分 裂 增益 较 低 ， 
没 必要 进行 搜索 和 分 有 裂 。 


3 ) LightGBM : Leaf-wise 


LightGBM 采 用 Leaf-wise ( 按 叶 子 生长 ) 生长 策 
略 ， 每 次 从 当前 所 有 叶子 中 找到 分 裂 增益 最 大 (一 
般 也 是 数据 量 最 大 ) 的 一 个 叶子 ， 然 后 分 裂 ， 如 此 
循环 。 


| 
双 旬 奥 吗 
XGBoost 和 多 酝 洒 ” 记 酬 … E 
Level-wise Growth / 按 层 生长 看 和 生生 和 
LightGBM 模 型 详解 可 已 必 
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Leaf-wise Growth / 按 叶 子 生 长 娄 生 人 @@ 
二 全 
LightGBM Leaf-wise 优点 : 降低 误差 ,可 高 精度 。 人 缺点: 可 能 长 出 较 深 的 决策 树 ， 产 生 过 松 合 。 
解决 ; ightGBM 在 Leafwise 之 上 增加 了 一 个 最 大 深 贷 的 限 捧 过 | 党 售 ShowMeAl 研 究 中 心 | 


同 Level-wise 相 比 ， 在 分 裂 次 数 相同 的 情况 下 ， 
Leaf-wise 可 以 降低 更 多 的 误差 ， 得 到 更 好 的 精度 。 
Leaf-wise 的 缺点 是 可 能 会 长 出 比较 深 的 决策 树 ， 产 
生 过 拟 合 。 因 此 LightGBM 在 Leaf-wise 之 上 增加 了 


一 个 最 大 深度 的 限制 ， 在 保证 高 效率 的 同时 防止 过 
拟 合 。 


6. 直 方 图 寺 加 速 


LightGBM 另 一 个 优化 是 Histogram ( 直方 图 ) 做 差 
加 速 。 整 个 构建 过 程 中 可 以 观察 到 : 一 个 叶子 的 直 
方 图 可 以 由 它 的 父亲 万 点 的 直方 图 与 它 兄 第 的 直方 
图 做 差 得 到 。 


一 个 叶子 的 直方 图 ， 可 以 由 它 父亲 节点 看 5 它 只 结 的 二 信友 得 


LightGBM 模 型 详解 


再 istogr ram( 压 ) = istogr ram( 人 外) 一 istogr 


ightGBM 可 以 在 构造 一 个 叶子 的 直方 图 后 ， 可 以 用 非常 微小 
En 人 信 。 


eni 研 究 中 心 | 


一 般 来 说 构造 直方 图 ， 需 要 通 历 该 叶子 上 的 所 有 数 
据 ， 但 直方 图 做 差 仪 需 遍 历 直方 图 的 k 个 桶 。 利 用 上 
述 特征 ，LightGBM5 可 以 在 构造 一 个 叶子 的 直方 图 
后 ， 可 以 用 非常 微小 的 代价 得 到 它 吕 第 叶子 的 直方 
, 在 速度 上 可 以 提升 一 倍 。 


闪 别 型 特征 持 


大 多 数 机 器 学 习 工 具 都 无 法 直接 支持 类 别 型 特征 ， 
我 们 会 先 将 其 编码 再 做 后 续 建 模 ， 如 果 使 用 one-hot 
这 种 编码 方式 还 会 降低 空 司 和 时 间 效 率 。 


LightGBM 优 化 了 对 类 别 型 特征 的 支持 ， 可 以 直接 输 
入 类 别 特征 ， 不 需要 额外 的 编码 或 one-hot 0/1 展 
开 。 并 在 决策 树 算法 上 增加 了 类 别 型 特征 的 决策 规 
则 。 


1 ) 树 模型 与 one-hot 编 码 


one-hot 编 码 是 处 理 类 别 特 征 的 一 个 通用 方法 ， 然 而 
在 树 模型 中 ， 这 可 能 并 不 一 定 是 一 个 好 的 方法 ， 尤 
其 当 类 别 特征 中 类 别 个 数 很 多 的 情况 下 ， 主 要 的 问 


日 而 瑟 
季 生 ， 
问题 1 : 可 能 无 法 在 这 个 类 别 特征 上 进行 切 分 。 


使 用 one-hot 编 码 的 话 ， 意 味 着 在 每 一 个 决策 节点 上 
只 能 使 用 one vs rest (例如 是 不 是 男性 ， 是 不 是 一 

线 城市 等 ) 的 切 分 方式 。 当 类 别 值 很 多 时 ， 每 个 类 

别 上 的 数据 可 能 会 比较 少 ， 这 时 候 切 分 会 产生 不 平 

衡 ， 这 意味 着 切 分 增益 也 会 很 小 。 


问题 2 : 影响 决策 树 的 学 习 。 


就 算 可 以 在 这 个 类 别 特征 进行 切 分 ， 也 会 把 数据 切 
分 到 很 多 零碎 的 小 空间 上 “， 如 下 左 图 所 示 。 而 决策 
树 学 习 时 利用 的 是 统计 信息 ， 在 这 些 数据 量 小 的 空 
辣 上 ， 统 计 信息 不 准确 ， 学 习 会 变 差 。 但 如 果 使 用 
下 右 图 的 分 肥 方 式 ， 数 据 会 被 切 分 到 两 个 比较 大 的 
空间 ， 进 一 步 的 学 习 也 会 更 好 。 


四 
呈 
把 数据 切 分 到 EEC 忆 
很 多 零碎 的 小 空间 2 总 
导致 决策 树 学 习 变 差 < 、 区 
We in 砚 
二 数据 会 被 切 分 到 
两 个 比较 大 的 空间 
one hot 编 码 的 问题 一 进一步 的 学 习 会 更 好 
9 二 多 站 楼 索 | 微 信 ShowMeAl 研 究 中 心 | 
中 httpWwww.showmeaitechy 
数值 表示 该 结 点 内 的 数据 。 右 图 中 叶子 
圈 中 的 交 示 该 结 点 内 的 数据 。 叶子 世 点 


X-A || X=C 的 含义 是 X-=A 或 者 X=C 放 到 左 孩子 ， 
其 余 放 到 右 孩 子 。 


2 ) LightGBM 关 别 型 特征 处 理 方 陈 


LightGBM 采 用 了 Many vs Many 的 切 分 方式 解决 
one-hot 编 码 带 来 的 问题 ， 实 现 了 类 别 特征 的 最 优 切 
分 。 用 LightGBM 可 以 直接 输入 类 别 特征 ， 并 产生 上 
右 图 的 效果 。 

在 1 个 k 维 的 类 别 特征 中 寻找 最 优 切 分 ， 朴 素 的 枚 举 
算法 的 复杂 度 是 O (2 k ) O(2^k) O(2k) ， 而 


LightGBM 采 用 了 如 On Grouping For Maximum 
Homogeneity 的 方法 实现 了 O (klog k ) O(kNog k) 
O(klogk) 的 算法 。 


算法 流程 如 图 所 示 : 


| 
怠 在 枚 举 分 割 点 之 前 ， 先 把 直方 图 按 每 个 类 别 的 均值 进行 排序 。 四 
加 接着 按照 均值 的 结果 依次 枚 举 最 优 介 割 点 。 47907) = 人 
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CotuntO7) 


排序 
LightGBM 处 理 方式 栈 | 
目 | 攻 得 少 几 SnagNeAl 研 究 中 心 
A B 心 A B 丰 


5 http:Wwww.showmeaitechy 


。@ 在 枚 举 分 割 点 之 前 ， 先 把 直方 图 按 每 个 类 别 
的 均值 进行 排序 。 


。 名 接着 按照 均值 的 结果 依次 枚 举 最 优 分 割 点 。 


信 下 图 可 以 看 到 ， Sum(y)/Count(y) 为 类 别 的 均值 。 
当然 ， 这 个 方法 很 容易 过 拟 合 ， 所 以 在 LightGBM 中 
加 入 了 很 多 对 这 个 方法 的 约束 和 正则 化 。 


| 
要 500 trees, each with 255 leaves 名 
2 
AUC 0.78368 0.79874 + 1.5 哆 | 
LightGBM 模 型 详解 Expo Data 外 
gs Time 138s 165s +19.6% ， 虽 
克 
在 Expo 数 据 上 的 实验 结果 如 下 : 
LightGBM 
8 处 理 方式 该 最 优 方法 在 AUC 上 查 升 了 1.5 个 点 ， 并 且 时 间 只 多 了 20% 
| 他 二 这 | 党 信 ShowMeAl 研 究 中 心 | 
5 httpWwww.showmeaitechy 


求解 类 别 型 特征 的 最 优 切 分 的 具体 流程 如 下 : 
@O 离散 特征 建立 直方 图 的 过 程 


统计 该 特征 下 每 一 种 离散 值 出 现 的 次 数 ， 并 从 高 到 
低 排序 ， 并 过 滤 掉 出 现 次 数 较 少 的 特征 值 。 然 后 为 
每 一 个 特征 值 ， 建 立 一 个 bin 容 器 ， 对 于 在 bin 容 器 

内 出 现 次 数 较 少 的 特征 值 直接 过 滤 掉 ， 不 建立 bin 容 


O 


8 


Q@ 计算 分 裂 国 值 的 过 程 


。 先 看 该 特征 下 划分 出 的 bin 容 器 的 个 数 ， 如 果 
bin 容 器 的 数量 小 于 4， 直 接 使 用 one vs other 方 
式 ， 逐 个 扫描 每 一 个 bin 容 器 ， 找 出 最 佳 分 裂 
氮 。 

。 对 于 bin 容 器 较 多 的 情况 ， 先 进行 过 滤 ， 只 让 子 
集合 较 大 的 bin 容 器 参加 划分 阔 值 计算 ， 对 每 一 
个 符合 条 件 的 bin 容 器 进行 公式 计算 ， 得 到 一 个 
值 ， 根 据 该 值 对 bin 容 器 从 小 到 大 进行 排序 ， 然 
后 分 从 左 到 右 、 从 右 到 左 进行 搜索 ， 得 到 最 优 
分 裂 国 值 。 公 式 如 下 : 


该 bin 容 器 下 所 有 样本 的 一 阶梯 度 之 和 该 


bin 容 器 下 所 有 样本 的 二 阶梯 度 之 和 + 正 
则 项 (参数 cat-smooth ) racf{ 该 bin 容 器 
下 所 有 样本 的 一 阶梯 度 之 和 1 该 bin 容 器 下 所 有 样本 
的 二 阶梯 度 之 和 } + 正则 项 〈 参数 {cat \text{-} 

smooth} ) 该 bin 容 器 下 所 有 样本 的 二 阶梯 度 之 和 该 
bin 容 器 下 所 有 样本 的 一 阶梯 度 之 和 + 正则 项 (参数 


cat-smooth ) 


这 里 为 什么 不 是 label 的 均值 呢 ”其实 上 例 中 只 是 为 
了 便于 理解 ， 只 针对 了 学 习 一 棵 树 且 是 回归 问题 的 


情况 。 这 时 候 一 阶 导 数 是 Y， 二 阶 导 数 是 1 ) ， 


。 没 有 搜索 所 有 的 bin 容 器 ， 而 是 设 定 了 一 个 搜索 
bin 容 器 数量 的 上 限 值 ， 程 序 中 设 定 是 32， 即 
参数 max_num_cat。 

。LightGBM 中 对 离散 特征 实行 的 是 many vs 
many 策略 ， 这 32 个 bin 中 最 优 划 分 的 阔 值 的 左 
边 或 者 右边 所 有 的 bin 容 器 就 是 一 个 many 集 
合 ， 而 其 他 的 bin 容 器 就 是 另 一 个 many 集 合 。 


@ 对 于 连续 特征 ， 划 分 阔 值 只 有 一 个 。 对 于 离散 值 
可 能 会 有 多 个 划分 国 值 ， 每 一 个 划分 冰 值 对 应 着 一 


个 bin 容 器 编号 。 


当 使 用 离散 特征 进行 分 裂 时 ， 只 要 数据 样本 对 应 的 


bin 容 器 编号 在 这 些 国 值 对 应 的 bin 集 合 之 中 ， 这 条 
效 据 融 加 入 分 裂 后 的 左 子 树 ， 人 否则 加 入 分 裂 后 的 右 
子 树 。 


8. 并 行文 持 与 优化 


LightGBM 原 生 支 持 并 行 学 习 ， 目 前 支持 ' 特征 并 
行 : 和 数据 并 行 , 的 两 种 ，LightGBM 针 对 这 两 种 
并 行 方法 都 做 了 优化 。 


。 特征 并 行 : 在 不 同 机 器 在 不 同 的 特征 集合 上 分 


别 寻 找 最 优 的 分 割 点 ， 然 后 在 机 器 间 同 步 最 优 
的 分 割 点 。 


。 数据 并 行 : 让 不 同 的 机 器 务 在 本 地 构造 直方 
， 然后 进行 全 局 的 合并 ， 最 后 在 合并 的 直方 
图 上 面 寻 找 最 优 分 割 点 。 


1 ) 特征 并 行 


LightGBM 在 特征 并 行 算法 中 ， 通 过 在 本 地 保存 全 部 
数据 避免 对 数据 切 分 结果 的 通信 。 
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Local Best Sp 信 Local Best Split 本 Best Split 
Global P 
特征 并 行 特征 /属性 并 行 是 
Feature / Attribute Parallelization | 让 E 汪 ShowMeAl 研究 中 心 | 


中 http/www.showmeaitechy 


2 ) 数据 并 行 


Lightgbm 在 数据 并 行 中 使 用 分 散 规约 (Reduce 

scatter ) 把 直方 图 合并 的 任务 分 捧 到 不 同 的 机 器 ， 

降低 通信 和 计算 ， 并 利用 直方 图 做 差 ， 进 一 步 碱 少 
了 一 半 的 通信 量 。 


| 
< 数据 并 行 / Data Parallelization 电 
监 
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Local Histograms 
for all features 


forall features 
| Global 
让 Best Split 
二 和 
山 山 | 人 入 索 | 微 信 ShowMeAl 研 究 中 心 


数据 并 行 


中 httpwww.showmeaitechy 


基于 投票 的 数据 并 行 则 进一步 优化 数据 并 行 中 的 通 
信人 代价， 使 通信 代价 变 成 常数 级 别 。 在 数据 量 很 大 
的 时 候 ， 使 用 投票 并 行 可 以 得 到 非常 好 的 加 速效 
果 。 
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| Q@ 视 索 | 微 信 ShowMenl 研 究 中 心 | 


更 具体 的 内 容 可 以 看 NIPS2016 的 文章 : A 
Communication-Efficient Parallel Algorithm 
for Decision Tree。 


9. 网 络 通 信 优 化 


XGBoost 由 于 采用 Pre-sorted 算 法 ， 直 接 通信 代价 
比较 大 ; LightGBM 采 用 的 histogram 算 法 通信 代价 
小 ， 通 过 使 用 集合 通信 算法 ， 能 够 实现 并 行 计 算 的 
线性 加 速 。 
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更 多 监督 学 习 的 算法 模型 总 结 可 以 查看 ShowMeAI 
的 文章 Al 知识 技能 速 碍 | 机 器 学 习 - 监 督学 习 。 
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。 3.KNN 算 法 及 其 应 用 

。 14. 逻辑 回归 算法 详解 
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。 13. 聚 类 算法 详解 
。 14.PCA 降 维 算 法 详解 
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。 图解 Python 编程 : 从 入 门 到 精通 系列 教程 

。 图 解数 据 分 析 : 从 入 门 到 精通 系列 教程 

。 图解 Al 数学 基础 : 从 入 门 到 精通 系列 教程 

。 图解 大 数据 技术 : 从 入 门 到 精通 系列 教程 

。 图 解 机 器 学 习 算 法 : 从 入 门 到 精通 系列 教程 
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本 篇 我 们 要 讲解 的 模型 是 大 名 昂昂 的 支持 向 量 机 
SVM， 这 是 曾经 在 机 器 学 习 界 有 着 近乎 “垄断 , 地 
位 的 模型 ， 影 响 力 持续 了 好 多 年 。 直 至 今日 ， 即 使 
深度 学 习 神 经 网 络 的 影响 力 逐 渐 增 强 ， 但 SVM 在 中 
小 型 数据 集 上 依旧 有 着 可 以 和 神经 网 络 抗衡 的 极 好 
效果 和 模型 鲁 棒 性 。 


广 持 向 量 机 学 习 方 法 ， 针 对 不 同 的 情 部 ， 有 由 简 至 
繁 的 不 同 模型 : 


。 线性 可 分 支持 向 量 机 (linear support vector 
machine in linearly separable case ) : 训练 数 
据 线性 可 分 的 情况 下 ， 通 过 硬 国 隔 最 大 化 
Chard margin maximization ) ， 学 习 一 个 线 
性 的 分 类 器 ， 即 线性 可 分 支持 向 量 机 ( 亦 称 作 
硬 间隔 支持 向 量 机 ) 。 


。 线性 支持 向 量 机 (linear support vector 
machine ) : 训练 数据 近似 线性 可 分 的 情况 
下 ， 通 过 软 间隔 最 大 化 (soft margin 
maximization ) ， 学 习 一 个 线性 的 分 类 器 ， 称 
作 线 性 支持 向 量 机 ( 又 叫 软 间隔 支持 向 量 
县 本 


。 非 线性 支持 向 量 机 (non-linear support vector 


machine ) : 训练 数据 线性 不 可 分 的 情况 下 ， 
通过 使 用 核 技 巧 (kernel trick ) 及 软 间隔 最 大 
化 ， 学 习 非 线性 分 类 器 ， 称 作 非 线性 支持 向 量 
机 。 


支持 向 量 机 模型 
线性 可 但 支持 向 量 机 线性 支持 向 量 机 非 线性 支持 向 星 机 
inear support vector machine lin ort vector machin nonJinear 
in linearly separable case 又 了 和 和 support vectormachine 
洒 和 站 央 雪 本 机 四 搜索 | 微 信 ShowMeAl 研 究 中 心 ] 


支持 向 量 机 可 以 借助 核 技巧 完成 复杂 场景 下 的 非 线 
性 分 类 ， 当 输入 空间 为 欧式 空间 或 离散 集合 、 特 征 

空间 为 希 尔 贝 特 空间 时 ， 核 胃 数 (kernel function ) 
表示 将 输入 从 输入 空间 映射 到 特征 空间 得 到 的 特征 
向 量 之 间 的 内 积 。 


通过 使 用 核 永 数 可 以 学 习 非 线性 支持 向 量 机 ， 等 价 
二 征 空 间 中 学 习 线 性 支持 向 量 
机 。 这 样 的 方法 称 为 核 技巧 。 


支持 向 量 机 模型 
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分 类 问 题 与 线性 模型 


) 
分 类 问题 是 监督 学 习 的 一 个 核心 问题 。 在 监督 学 习 
中 ， 当 输出 变量 取 有 限 个 离散 值 时 ， 预 测 问题 便 成 
为 分 类 问题 。 实 际 生 活 中 ， 有 很 多 问题 的 本 质 都 是 
分 类 ， 如 识别 肝 种 模式 : 文本 分 类 、 分 词 、 词 性 标 
注 、 图 像 内 容 识 别 和 目标 检测 等 。 


分 类 问题 (监督 学 习 ) 
根据 数据 样本 上 机 取出 的 特征 ， 判 定 其 属 干 有 限 个 类 别 中 的 哪 一 个 
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垃 需 邮 件 识别 。 二 分 类 共 各 如 件 和 


ET 
a 殉 
多 
二 
这 


本 竹 | 物 | 人 
图 像 内 容 识 别 。” 多 分 类 都 不 是 


文本 情感 分 析 。 二 分 类 褒 / 贬 
多 分 类 


分 类 问题 与 线性 模型 二 
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分 类 问题 的 数学 理解 是 空间 划分 〈 或 者 寻找 不 同类 
别 的 决策 边界 ) ， 如 下 图 所 示 是 一 个 简单 的 线性 分 


逻辑 回归 算法 详解 ) 。 


线性 模型 
特征 的 线性 组 合 进 行 分 类 


aopwy 且 和 ee 人 下 


蕉 
也 

1 吕 

盖 计 

出 
岛 有 和 
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2 ) 最 大 间隔 分 关 吕 


不 同 的 模型 在 解决 分 类 问题 时 ， 会 有 不 同 的 处 理 方 
式 ， 直 观 上 看 ， 我 们 会 使 用 不 同 的 决策 边界 对 样本 
进行 划 亿 5 


如 下 图 中 “ 冰 墩 墩 : 与 雪 容 融 ， 两 类 样本 点 ， 我 
们 对 其 进行 分 类 ， 可 以 完成 该 分 类 任务 的 决策 边界 
有 无 数 个 。 而 我 们 这 里 介绍 到 的 SVM 模型 ， 要 求 更 
高 一 些 ， 它 不 仅仅 希望 把 两 类 样本 点 区 分 开 ， 还 希 
望 找到 鲁 棒 性 最 高 、 稳 定性 最 好 的 决策 边界 ( 对 应 
图 中 的 黑色 直线 ) 。 


决策 边界 : 鲁 棒 性 最 高 .稳定 性 最 好 四 
中 


“ 沪 鲁 决策 边界 与 两 侧 [最 近 ] 的 数据 点 有 着 T 最 大 1 
三 学 9 汉 
人 证 决策 边界 具有 最 强 的 容错 性 ， 不 容易 受到 品 
关 时 二 产权 的 二 术 
生生、 
一 曾 [SEE 微 信 ShowMeAl 研 究 中 心 


这 个 决策 边界 与 两 侧 “ 最近, 的 数据 点 有 着 ' 最 
大 1 的 距离 ， 这 意味 着 决策 边界 具有 最 强 的 容错 
性 ， 不 容易 受到 噪声 数据 的 干扰 。 和 直观 的 理解 惑 
是 ， 如 果 快 筑 边 界 抖动 ， 最 不 容易" 撞 上 , 样本 点 
或 者 进而 导致 误 判 。 


2. 又 持 同 量 机 证 解 


1 ) 线性 可 分 SVM 与 硬 间 隔 最 大 化 


我 们 要 找到 把 下 图 中 红 蓝 两 色 的 图 标点 分 开 的 最 优 
分 界线 。 令 红色 的 图 标点 = + 1 =+1 =+{1 ， 蓝 色 的 
图 标的 点 =- 1 =-1 =-1 ,直线 f(x)=w:Xx+b 
f(x) = \boldsymbol{w}hcdot \boldsymbol{x} + b 
f(X)=wW:x+b ， 这 里 w、Xx w、Xx w、Xx 是 向 量 ， 其 实 
公式 等 价 于 f(x)=w1x1+Ww2x2+...+Wnx 


n+bf=w1x1+w2x2+..+wWwWnxzn+b 
f(X)=w1Xx1+W2Xx2+...+WnXxn+b 。 


PSV 用 划 人 全 攻 


Fe =W xx 二 了 
唱 


7] WwW、 立 是 向 量 厂 


J GD) = wii 十 Wzxz 十 …Wiatn 十 了 
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。 当 向 量 x x x 为 二 维 轴 量 时 ，f ( x ) f(x) f(x) 表 
示 二 维 空间 中 的 一 条 直线 。 


。 当 向 量 x x x 为 三 维 向量 时 ，f (x ) f(x) f(x) 表 
示 三 维 空间 中 的 一 个 平面 。 


。 当 向 量 xxx 的 nnn 维 向 量 ( fn>3fn>3 
fn>3 ) 时 ，f(x)f(x) f(x) 表示 nnn 维 空 间 中 
的 n- 1n-{ n-1 维 超 平面 。 


当 有 一 个 新 的 点 x x x 需要 预测 属于 哪个 分 类 的 时 
候 ， 我 们 用 sgn(f(x))sgn(f(x)) sgn(f(x)) 就 可 以 
预测 了 。 s g n sgn sgn 表示 符号 函数 : 
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。 当 f(x)>0fx)>0f()>0 的 时 候 ，sgn(f(x 
))=+1sgnf(x)) =+1Ssgn(f(x))=+1 。 


。 当 f(x)<0f(x) < 0f(x)<0 的 时 候 sgn(f(x) 
) = 一 1sgn(f(x)) = -1 sgn(f(x))=-1 。 


回 到 重点 ， 我 们 怎样 才能 取得 一 个 最 优 的 划分 直线 1 
(x ) f(x) flx) 呢 ? 下 图 的 直线 表示 几 条 可 能 的 f( x ) 
f(X) f(CXx) : 


【1 


怎样 才能 取得 一 个 最 优 
的 划分 直线 六 xz 呢 ? 


多 二 os 
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我 们 希望 这 条 直线 满足 ' 最 大 间隔 , 原则 ， 也 就 是 
如 下 图 的 形态 。 图 中 位 于 红色 和 蓝 色 线 上 的 图 标 就 
是 所 谓 的 支持 向 量 (support vector ) 。 


， 
> 7 本本 人 中 
车 所 信 ShowMeA1 研 究 中 心 | 


决策 边界 就 是 f( x ) f(x) f(xX) ， 红 色 和 蓝 色 的 线 是 支 
持 向 量 (support vector ) 所 在 的 面 ， 红 色 、 蓝 色 线 
之 间 的 间隙 就 是 我 们 要 最 大 化 的 分 类 间 的 间 隐 

M (Margin Width ) 。 
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这 里 直接 给 出 间隔 M 的 计算 公式 : M=21wllM= 
rac{2}fAeft | w Night \| } M=|lwll2 。 
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SVM 要 求解 能 够 正确 划分 训练 数据 集 并 且 上 几何 间 
隔 ,最 大 的 分 离 超 平面 。 


如 下 图 所 示 ，w:.x+b = 0'\boldsymbolfw} \cdot 
\boldsymbol{x}+b=0 wx+b=0 即 为 分 离 超 平 面 。 对 
于 线性 可 分 的 数据 集 来 说 ， 这 样 的 超 平面 有 无 穷 多 
个 〈 即 感知 机 ) ， 但 是 几何 间隔 最 大 的 分 离 超 平面 
却 是 唯一 的 。 


我 们 先 做 一 些 定义 ， 假 设 给 定 一 个 特征 空 司 上 的 训 
练 数据 集 : T=(x1,y1),(x2,y2),.…,(xN 

N ) T={(x_1,y 1),(Xx_ 2,y 2), Ndots,(Xx_N,yY_N)} 
T=(xl,y1),(x2,y2),….,(xN,yN) 。 且 训练 数据 集 是 线 
性 可 分 的 ， 其 中 : 


*。XxieRnxixnxmathbb{R)A(n}xieRn ，yi 
E{+1,-1})y 全 NinxleftM+1, -1 Night \ yi 
E{+1,-1} ，i=1,2,...N,Xxii=1,2,NMdots 
N,x_ 全 iji=1,2….N,xi 为 第 iii 个 特征 向 量 。 


。yiy 全 yi 为 类 标记 ， 当 它 等 于 + 1 +1 +1 时 为 
正 例 ; 为 -1 -1 -1 时 为 负 例 。 


EE 
分 离 超 平面 呆 
对 干线 性 可 分 的 歼 根 集 来 说 , 这 样 , 包 


和合 4XAA 人 祝 ” 。。 的 下 平面 有 无 穷 多 个 ( 即 感 知 机 ) ， 全 
支持 向 量 机 模型 人 3 @ 。 但 是 几何 间隔 最 大 的 分 高 超 平面 却 “局 
抽 帮 一 


是 唯一 的 。 


(1) 几何 间隔 


对 于 给 定 的 数据 集 TTT 和 超 平面 wx+b=0wx 
+b=0 WwWXx+b=0 。 


定义 超 平面 关于 样本 点 (xi ,yi)(x 分 ,y 他) 
(xi,yi) 的 几何 间隔 为 : Yi=yi(wllwll :xi+ 
bllwll)gamma 位 =y ifrac{w}WNeft \| w 
vight \| } xcdot x_i+NfracfblWeft | w Night \| )) 
Yi=yi(llwllw-xi+llwllb) 


超 平面 关于 所 有 样本 点 的 几何 间隔 的 最 小 值 
为 :Y=mini=1,2..,NYi\gamma=Amin 
_{i=1,2 dots, N} \gamma_ 们 Y=mini=1,2...,N 
Yi ， 实 际 上 这 个 距离 就 是 我 们 所 谓 的 “支持 向 
量 到 超 平面 的 距离 ， 。 


| 
给 定数 据 集 T 和 超 平面 wx 1 8 0。 思 
定义 超 平面 关 干 样本 点 (xz 思 ) 的 几何 间隔 : Y 一 %( 公 if 安 十 1 


王 

支持 向 量 机 模型 超 平面 关 干 所 有 样本 点 的 几何 间隔 的 最 小 值 :了 一， 把 in Vi 

辕 
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@ 根据 以 上 定义 ，SVM 模 型 的 求解 最 大 分 害 超 平 
面 问题 ， 可 以 表示 为 以 下 约束 最 优化 问题 : 


max w,bYys.t.yi(wllwll:xi+bllwll)>yYy，i 
=1,2,..,N'beginfalignedj&\max {w,b} 
gammaN& st quad y 全 (frac{w}yAleft | w Night 
\} cdot x_i+xfrac{fbjWeft | w Night |}) \geq 
gamma, ij=1,2, dots, NN\A\end{aligned}) w,bmax 
YS.t.yilllwllw:xi+llwllb)>Y,j=1,2,…,N 


上 面 公 式 中 s.t 是 subject to 的 缩写 ， 也 就 是 限制 
条 件 的 意思 。 


@ 将 约束 条 件 两 边 同 时 除 以 Y \gamma Y 得 到 : 


yi(wllwly':xi+bllwly)>1fTy 分 Aracfwlfleft 


VJ wxright\ \gammalj \cdot x_i+xfrac{fb}fAeft \| w 
vight \ gammal) \geq 1 yi(lwllyw-:xi+llwllyb)>1 


@ 因为 外 wllNeft \| w right \| lwl、Y\gamma Y 
都 是 标量 ， 所 以 为 了 表达 了 式 简洁 ， 令 : w=wllw 
Yw=\fracfwlfvleft \| w \right \ \gammal w=|llwllYyw 
、b =bllwllyb=\fracfbjfleft \| w Night \| 
\gammal b=|lwllyb 得 到 : 


yi(wW:xi+b)>1,i=1,2,..,，Nyi(wxcdotx i 
+b) \geq 1, i=1,2, NMdots, N yi(w'xi+b)>1,ij=1,2,...N 


@ 又 因为 最 大 化 Y\gamma Y ， 等 价 于 最 大 化 1 | 
wlracf1iNeft \| w \right \|} lwll1 ， 也 就 等 价 于 
最 小 化 121wll2'\fracf1j{2hNeft\| w right \|^{2} 
21|lwll2 ， 最 终 SVM 模 型 的 求解 最 大 分 割 超 平面 问 
题 又 可 以 表示 为 以 下 约束 最 优化 问题 : 


min w,b12llwl2s.t.yi(w:xi+b)>1,i= 
1,2,..,NNbeginfaligned) & min {w, bl Yrac{1} 
{2Neft\| w Night \^(2 八 & st quad y_ 人 (ww Acdot 


X_i+b) \geq 1, i=1,2, MIdots, N \endfaligned} w,bmin 
21|wll2s.t.yi(w:xi+b)>1,i=1,2.,N 


(2 ) 对 偶 算 法 


求解 线性 可 分 支持 向 量 机 的 最 优化 问题 ， 我 们 很 多 
时 候 会 将 它 转 化 为 对 偶 问 题 (dual problem ) 来 求 
解 ， 也 就 是 应 用 “ 拉 格 朗 日 对 偶 性 ，， 通 过 求解 
对偶 问 题 (dual problem ) , 得 到 原始 问题 
(primal problem ) 4 的 最 优 解 ， 即 线性 可 分 支持 
向 量 机 的 对 偶 算法 (dual algorithm ) 。 


这 样 做 有 一 些 优 点 : 
。 对 偶 问 题 往往 更 容易 求解 。 


。 引入 自然 核 轴 数 ， 进 而 可 以 推广 到 非 线 性 分 类 
问题 。 


@ 我 们 首先 构建 拉 格 朗 日 函数 (Lagrange 
function ) 。 为 此 ， 对 每 一 个 不 等 式 约 束 引 进 拉 格 
朗 日 乘 子 (Lagrange multiplier ) ci>0,i=1,2， 
... ,NANalpha_iNgeq 0,i=1,2,….,N oili>z0,ij=1,2,...,N ， 
定义 拉 格 朗 日 函数 : 


L(w,b,o)=12wTw+2i=1Noi(1-yi( 
WwWTxi+b))=12wTw-2>2i=1Noiyi(wTx 
i+b)+>i=1Noixbeginfaligned}yLw,b， 
valpha)=&frac{1}{2}w^ATw+sum_{i=1} 
^{N}alpha_i(1-y_i(wAT x+b))N=&Nracf1i{2) 
w^ATw=-sum _{fi=1)}^(N}Nalpha jiy_i(wATX iT+b) + 
\Sum_{i=1}^A{(N》Nalpha ixendfaligned} L(w,b,o)==21 
WwWTw+i=12Naoi(1-yi(wTxi+b))21wTw-i=1> Noiyi 
(WwWTxi+b)+i=12 Nai 


根据 拉 格 朗 日 对 偶 性 ， 原 始 问题 的 对 偶 问 题 是 权 大 
极 小 问题 : max xcmin w,bL(w,b，,oo) 
max_falphaNmin_{w,b}L(w, b, valpha) maxC 
minw,bL(w,b,o) 。 所 以 ， 为 了 得 到 对 偶 问 题 的 解 ， 
需要 先 求 L(w,b ,ol) L(w,b,valpha) L(w,b,o) 对 
w、b w、b w、b 的 极 小 值 ， 再 求 对 $alpha $ 的 
极 大 值 。 


四 求 L(w,b,a)Lw,b,valpha) L(w,b,o) 对 w 
、b w、b w、b 的 极 小 值 


将 拉 格 朗 上 日 函数 L (w,b ,ol) L(w,b,valphal) 
L(w,b,o) 分 别 对 w、b w、b w、b 求 偏 导 ， 并 令 其 


值 为 0。 


oOLow=w->i=1Noiyixi=0> 一 wW= >》i=1 
Noiyixixracfpartial LIApartial w}) = w 一 
\Sum_{i=1T}^{N}》alpha jiy x_i=0OARightarrow w = 
\Sum_{fi=1}^(N》Nalpha ijiy ix iowoL=w-i=12Naiyi 
Xi=0 一 WwW=i=12 Naoiyixi 


oOLb=->i=1Noiyi=0>>i=1Noiyi=0 
racf\partial Lj{b}=-、\sum_{fi=1}^(NNalpha_iy_ i=0 
\Rightarrow \Ssum_{fi=1}^A{N}alpha_iy_i=0 boL= 
-i=12 Noiyi=0=i=1>Noiyi=0 


将 上 陈 代 入 拉 格 朗 日 浮 数 ， 即 得 : 


min w,bL(w,b,ac)=12(>》i=1Noiyixiy) 
T2i=1Noiyixi-2i=1Naoiyi((2i=1 
Noiyixi)Txi+b)+>i=1Noi=127i=1 
N2j=1NoiyicjyjxiTxj- ni=1N 刀 |j= 
1NoaoiyiocjyjxjTxi+>2i=1Noi=-1272i 
=1N2j=1NoiyiocjyjxiTxj+D>i=1Ncai 
\begin{faligned} min_{w,b}) L(w, bxvalpha)=&xfrac{1} 
{2} Csum_{fi=1}A(N》alpha jiy ix DTAsum (fi=1) 
^A{N}alpha iy ix isum_ fi=1}^{(NNalpha 
y_i((Csum_{i=1T}^A(N}》alpha jy ix DATXi+b)+ 


\Sum_{i=1}^A{N》alpha_iN=&Vracf{1i{2Nsum_{i=1} 
^A{N})Nsum_1=1^(NNalpha ijiy_ihalpha jy jx_iATx |- 
\Sum_{i=1}^A(N》Nsum_ 1=1)^(NNalpha ijiy_iNalpha jj 
y_jx_j^Tx_i+sum_{i=1I^{NNalpha iN=& -racf{1) 
{2}》sum_{fi=1}^(N}Nsum_1=1}A(NNalpha iy 
valpha_ jy_jx_i^Tx_j+sum_fi=1}A(NNalpha 
\end{aligned} wbminL(w,b,o)===21(i=12 Noiyixi 
)Ti=1T>2Naiyixi-i=12Noiyi((i=1>Noiyixi)TXi 


olyjxiTxj+i=1 Na 


Zubal = 了 ru 十 2 一 %(urzi+ 功 ) 汪 和 到 
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各 所 扣 扣 
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@ 求 minw,bL(w,b,cxc)\min {wblL(w,b， 
valpha) minw,bL(w,b,a) 对 xvalpha ca 的 极 大 值 ， 
即 对 偶 问 题 


max CC-122i=1N2j=1NoiyiojyjxiT 


xj+>2i=1Nois.t.2i=1Noaiyi=0ci>0， 
ii=1,2...N'beginfalignedlj&max falphal - 
racf{1i{2Nsum_{fi=1TA(NNsum_ 10=1)^(NNalpha ii 
y_halpha jy jx_i^Tx_j+sum_{fi=1}^{(NNalpha iN& 
st. quad \sSum_{fi=1}^(Nalpha ijy iji=0N& Aquad 
quad alpha_i \geq 0,ij=1, 2...N \end{aligned) 


s.t.j=12Noiyi=0oi>0,i=1,2...N 


将 式 中 的 目标 浮 数 由 求 极 大 转换 成 求 极 小 ， 就 得 到 
下 面 与 之 等 价 的 对 偶 最 优化 问题 : 


min cf122i=1N2>2j=1NoiyiojyjxiTxj 
-> i=1Nois.t.>i=1Noiyi=0oi>0,i 
=1,2...N'beginfalignedj &xmin_falphal \frac{1} 
{2}Nsum_{fi=1}^{N}Nsum_ 1=1T (Nalpha iy 
valpha_ jy_jx_iATx_ jsum_{fi=1}^{(Nalpha Ng& st. 
quad \sum_{fi=1)^(Nalpha ijy ji=0N& Adquad 
quad \alpha_i \geq 0,ij=1, 2...N \end{faligned) omin 


yi=0oi>0,j=1,2...N 
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求 L(w, 久 四 对 a 的 极 大 值 
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*Q@ 对 线性 可 分 训练 数据 集 ， 假 设 对 偶 最 优化 问题 
对 avalpha ca 的 解 为 wx*=(o1r,a2xr，..，QNr 
)T alpha^=(alpha_1^ Nalpha_ 2 人..， 
\alpha_NA)AT cox=(Q1*x,o2x .CN*)T ， 可 以 由 Cx 
valpha^* ox 求 得 原始 最 优化 问题 的 解 w* 、 bx* 
WAx、bAx We、 bs xx. 


有 下 面 的 定理 : 设 a*=(a1r*,o2r，,..，QN*) 
Talpha^*=(alpha_1 和 Nalpha_ 2 人 
valpha_NA")^AT ok=(a1*,o2x,...,GQN*)T 是 对 偶 最 优化 
问题 的 解 ， 则 存在 下 标 jjj ， 使 得 xj* > 0 
valpha_j^*>0 oj*>0 ， 并 可 按 下 陈 求 得 原始 最 优化 问 
题 的 解 w* , b * WA*,bA* W#,b* : 


WwWrk=>2i=1xrNoiryixiw^=sum fi=1)^{(N) 
valpha_i^*y_iXx_ 1W#*=i=12*NoixyiXi 


b*=yj-2i=1*Noixyi(xixTxj)b“=y 
\sum_{i=1T}^*(N]) \alpha_i^*y_i(x_iA*Tx_j) bx=yj 
--i=1| 2*Noixyi(XixTXj) 


证 明 : 根据 定理 ，KKT 条 件 成 立 ， 即 得 : 


oOL(wW*,bx, ocx)ow=WwW#r 一 2i=1Ncai*xyix 
1=0oL(wr,brx,Q*x)ob=->i=1Noiryi 
=0oL(wrx,brx, ax)oo=0ci(1-yiIGOwTXi 
+b))=0oci>0,i=1,2,..,N1-yi(wTXxi+ 
b)<0,i=1,2,..,，NNbeginfaligned}& 
racf\partial L(w^*,b^* alpha ^)} 人 partial w}) = WwW^- 
Sum_{i=1T}^A{N》alpha i 和 yi1xi=0N&Nracf\partial 
L(wW^*,b^ Nalpha ^} 人 partial bl = Sum_{fi=1) 
^A{N}alpha_i^*y_i=0N& ANfracfpartial LO(W^A,b^”， 
valpha ^)}Apartial alphal =0N\&n'valpha i(1- 
y_i(w^Tx_i+b)) =0N\&A'alpha ivgedq0 ,N& i=1,2， 
.NAN&1-Yy i(wATx i+b) eq 0 ,ij=1,2,….,N 
\end{aligned} owo9L(w*,b#*,ok)=W#--i=1 Noi*yixXi 
=0oboL(wW#,b*,Qx)=--i=1 2 Noi*yi=000oOL(W#*,b#,O) 
=0oi(1-yi(wTxi+b))=0ci>z0,i=1,2,...,N1-yi(wWTXi 
+b)<0,i=1,2,..,N 


由 此 得 w*=2i=1Noi*ryixiw*=sum fi=1) 


^{N} alpha_i^*y_ix WwWr*= 刀 ji=1TNaoi*yixXi 


\ 其 中 至 少 有 一 个 oj* > 0 valpha_j^*>0 oj*>0 〈 用 
反正 法 ， 假 设 xj* = 0'\alpha_j 兴 =0 oj*=0 ， 由 式 可 
知 w* = 0Ww^*=0 wx=0 ,而 wx*=0Ww^=0wx=0 
不 是 原始 最 优化 问题 的 解 ， 产 生 矛 盾 ) ， 由 此 对 jjj 
有 :yj(w*:xj+bx)-1=0yj(wAAcdot xj 
+bAx) -1 = 0 yj(wx:xj+bx)-1=0 


将 式 代 入 并 注意 到 yj 2 = 1 y_j^2=1 yj2=1 ， 即 得 : 
br*=yj-w*Xxj=yj-2i=1Noi*yi(xixj) 
b^ =yj-w^Uxj=y jsum_ 人 =1T AN 
valpha_i^*y_i(X_ix_ j) br*=yj-w*Xxj=y 盖 二 ij=1Noi*yi(Xi 
当 ) 


@ 由 此 定理 可 知 ， 分 离 超 平面 可 以 写成 


>i=1Noi*ryi(x:xi)+bx=0'sum{fi=1^(N) 
valpha _i^A*y_i(OXAcdot x 让 +b^ 必 =0i=1>2 Noi*yi(X:Xi 
)+b*x=0 


@ 分 类 决策 函数 可 以 写成 


f(x)=Sign(>i=1Noi*ryi(x:Xxi)+bx*) 
f(x) = Sign(sum_{i=1TI^A{(N} alpha i^*y_i(OXAcdot x_) 
+ b^*) f{(X)=sign(i=1 > Noi*yi(X:Xi)+b*) 
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分 离 超 平面 分 类 决策 函数 


YY 
> oagyilz ai)+r=0 jz) = sign(》 atyi(z ai) 十 扩 ) 
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也 就 是 说 ， 这 里 的 决策 池 数 只 依赖 于 输入 Xx x 和 
训练 样本 输入 的 内 积 。 上 了 式 亦 称 作 线性 可 分 SVM 的 
对 偶 形 陈 。 


综 上 所 述 ， 对 于 给 定 得 线性 可 分 训练 数据 集 ， 可 以 
首先 求 对偶 问 题 的 解 x * valpha^* ox ; 再 利用 公式 
求 得 原始 问题 的 解 w * , b * w^*,b^* wx;b* ; 从 而 得 
到 分 离 超 平面 及 分 类 决策 函数 。 这 种 算法 称 为 线性 
可 分 支持 同 量 机 的 对 偶 学 习 算法 ， 是 线性 可 分 支持 
向 量 机 学 习 的 基本 算法 。 


2 ) 线性 SVM 与 软 间隔 最 大 化 


我 们 前 面 提 到 的 是 线性 可 分 的 情况 ， 但 实际 应 用 中 
完全 线性 可 分 的 情况 太 少 见 了 。 如 下 图 就 是 一 个 典 


型 的 线性 不 可 分 的 分 类 图 (我们 没 ae 
直线 ， 把 空间 划分 为 2 个 区 域 ， 一 个 区 域 只 有 黑 点 ， 
一 个 区 域 只 有 白 扣 ) o 


要 对 其 进行 切 分 ， 有 2 种 方案 : 


下 用 曲线 去 将 其 完全 分 开 ， 即 非 线性 的 决策 边 
Rn 效 天 联 。 


支持 向 量 机 模型 


方案 1 
用 曲线 去 将 其 完全 分 开 磺 
即 非 线性 的 决策 边界 


有 oowy 及 ie 人 
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中 http:Wwww.showmeaitechy 


方案 2 : 还 是 使 用 直线 ， 不 过 不 追求 完全 可 分 ， 会 适 
当 包容 一 些 分 销 的 情况 ， 在 这 个 过 程 中 我 们 会 在 模 
型 中 加 入 惩 习 函数 ， 尽 量 让 分 错 的 点 不 要 太 多 太 离 
谱 。 对 分 错 点 的 和 苇 姑 画 效 就 是 这 个 点 到 其 正确 位 置 
的 距离 ， 如 下 图 所 示 : 


7 二 攻 ee 已 开 


方案 2 
使 用 直线 
不 追求 完全 可 分 
适当 包容 一 些 分 错 的 情况 


司 有 4 
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图 上 黄色 、 蓝 色 的 直线 分 别 为 支持 向 量 所 在 的 边 
界 ， 黑 色 的 线 为 决策 函数 ， 那 些 绿色 的 线 表 示 分 错 
的 点 到 其 相应 的 决策 面 的 距离 ， 这 样 我 们 可 以 在 原 
浮 数 上 面 加 上 一 个 惩罚 亢 数 ， 并 且 带 上 其 限制 条 件 
为 : 


min 12|wl2+C2i=1Rsi,s.t. ,yiI(wWTXi 
+b)>1-8s8i,si>0'beginfaligned}&xmin 
racf{1i{2}|wl^{2}+C sum_{i=1TIA(R} Varepsilon_ 介 ， 
N&St,y 人 Neft(w^(T} x 分 +bxight) \geq 1- 
Varepsilon_ 人 ,varepsilon 癸 \gedq 0 \end{faligned) 
min21|wl2+Ci=12 Ragi,s.t.,yi(wTxi+b)>1-8i,gi>0 


上 述 公式 为 在 线性 可 分 问题 的 基础 上 加 上 的 惩罚 函 
数 部 分 ， 当 xix_ixi 在 正确 一 边 的 时 候 ，sg=0 

arepsilon = 0 s=0 ，R 为 全 部 的 点 的 数目 ，C 是 一 
个 由 用 户 去 指定 的 系数 ， 表 示 对 分 错 的 点 加 入 多 少 


的 惩 姑 : 


。 当 C 很 大 的 时 候 ， 分 错 的 点 就 会 更 少 ， 但 是 过 
拟 合 的 情况 可 能 会 比较 严重 。 

。 当 C 很 小 的 时 候 ， 分 销 的 点 可 能 会 很 多 ， 不 过 
可 能 由 此 得 到 的 模型 也 会 不 六 正确 。 


实际 我 们 也 会 调整 和 选择 合适 的 C 值 。 


经 过 这 个 变换 之 后 ， 我 们 可 以 同样 求解 一 个 拉 格 朗 
日 对 偶 问 题 ， 得 到 原 问 题 的 对 偶 问 题 的 表达 式 : 


max Ci=1noi-122i,j=1noaiojyiyj 
xiTxjst,C>zoi>0,i=1,… ,，n,>2i=1n 
ciyi=0o'xbeginfalignedj&\max 人 alphal 
\Sum_{i=1T} An valpha_ 全 frac{1{2) sum_ 人 j=1} 
An valpha 菇 alpha 分 y 地 册 x 二 和 站 x 雪 忆 
& \text { st. }), C \gedq valpha_ 人 f \geq 0, i=1, \cdots， 
n ,Sum_{i=1}^{n} alpha_ 全 y 分 =0 end(aligned} 


>0,i=1，……n,i=12noiyi=0 


> 》 
ss5e 严 了 
本 册 克昌 Iax》ai 一 记 OHQUUjOi 0 
min 椰 lwP 二 Ce < 各 2 党 
iT 
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多 让 :797 用 e 人 下 


在 线性 不 可 分 情况 下 得 到 的 对 偶 问 题 ， 不 同 的 地 方 
就 是 cx 的 范围 从 [0, +c)， 变 为 了 [0, C], 增加 的 惩罚 
sg varepsilon gs 没有 为 对 偶 问 题 增 加 太 多 复杂 度 。 


3 ) 非 线 性 SVM 与 核 数 


如 果 我 们 要 处 理 的 分 类 问题 更 加 复杂 ， 甚 至 不 能 像 
上 面 一 样 近似 线性 可 分 呢 ， 这 种 情况 下 找到 的 超 平 
面 分 错 的 程度 太 高 不 大 可 接受 。 


对 于 这 样 的 问题 ， 一 种 解决 方案 是 将 样本 从 原始 空 
国 映 射 到 一 个 更 高 维 的 特征 空间 ， 使 得 样本 在 这 个 


特征 空间 内 线性 可 分 ， 然 后 再 运用 SVM 求解 ， 如 下 
图 所 示 : 


支持 向 量 机 模型 


站 | 


合肥 pw 


比如 下 图 中 的 典型 线性 不 可 分 的 情况 : 


[| 
queapose o8mopo 盯 
D 本 
o So o 本 二 
o ee oo 使 用 映射 函数 国 
支持 向 量 机 模型 马 虽 
ie 各。 5 。 想 两 个 类 似 棋 加 形 的 点 喘 组 开 忆 
吕 引 克 
三 维 空间 (zi, zz, za ) 
o oo 对 映射 后 的 坐标 加 以 施 转 
P o oooop 
2 oos? 就 得 到 了 一 个 线性 可 分 的 点 集 
cp9 。 
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当 我 们 使 用 映射 函数 z1=x12,z2=x22,z3= 
X2Z {1j=x_{1A(2 z {2}=x_{2}A(2) z_(3}=x_{2} 
z1=Xx12,z2=Xx22,z3=x2 把 这 两 个 类 似 于 椭圆 形 的 点 
映射 到 三 维 空间 (z1,z2,z3)(z 1,z 2,z 3) (z1 
,Z2,z3) 后 ， 对 映射 后 的 坐标 加 以 旋转 之 后 就 可 以 得 
到 一 个 线性 可 分 的 点 集 了 。 


我 们 回忆 一 下 之 前 得 到 的 对 偶 问 题 表达 式 : 


max Ci=1noi-122i,j=1noaiojyiyj 
xiTxjs.t.,C>zoi>z0,i=1,… ，,n,>i=1n 
ciyi=0o'xbeginfalignedj&\max 人 alphal 
\Sum_{i=1T} An valpha_ 人 -frac{1{2) sum_ 人 j=1)} 
An valpha 菇 alpha 地 y 地 y 册 x 二 和 站 x 雪 忆 
&sSst. ,Cgednalpha_ ff \geq 0,i=1, \cdots, n， 
Sum 二 | pna 人 人 一 N ee 


>0,ij=1,…,n,i=1> 0 


做 一 点 小 小 的 改造 ， 令 : xiTxj=k(xi,Xxj) 

X_ 全 I^ 人 T) x 从 =\kappaxleft(x 全, x 人 right) xiTXj 
=K(Xi,Xj) 。 这 个 式 子 所 做 的 事情 就 是 将 线性 的 空间 
映射 到 高 维 的 空间 ，Kk ( xi , xj ) \kappaNleft(x_ 人 fi， 
x_f{jjvright) K(xixj) 有 很 多 种 ， 下 面 是 比较 典型 的 两 
种 : 


K(Xi,Xxj)=(xi:Xj+1)dxkappaNeft(x_ 人， 
X_ 人 fright)=\left(x_{ 人 cdot x_ 人 +TNrightb^A(dy K(OXiXj 
)=(Xi'Xj+1)d 


K(Xxi,Xxj)=exp (-(xi-xj)220G2)xkappa 
Meft(x_ 们 , x 全 right)= \exp Meft(-fracfMeft(x_ 们 - 
X_ 人 fright)A{2}){2\sigma^(2}Nright) K(Xi,Xj 


)=exp(-202(Xi-Xj)2) 
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上 述 两 个 核 函 数 分 别 为 多 项 式 核 和 高 斯 核 ， 高 斯 核 
甚至 是 将 原始 空间 映射 为 无 穷 维 空间 ， 另 外 核 衣 数 
有 一 些 比较 好 的 性 质 ， 比 如 说 不 会 比 线性 条 件 下 增 
加 多 少 额 外 的 计算 量 ， 等 等 ， 此 处 我 们 不 深入 。 对 
于 一 个 问题 ， 不 同 的 核 涵 数 可 能 会 帝 来 不 同 的 结 
果 ， 我 们 需要 做 一 些 尝试 来 支撑 选择 ( 天 于 这 个 间 
分 ， 大 家 可 以 看 最 下 方 的 python 实 现 部 分 ) 。 


3.SVM 总 结 


1 ) 模型 总 结 


支持 向 量 机 (Support vector machines, SVM ) 是 
一 种 二 分 类 模型 ， 它 的 基本 模型 是 定义 在 特征 空间 
上 的 间隔 最 大 的 线性 分 类 器 ， 他 的 学 习 策 略 就 是 间 
隔 最 大 化 ， 同 时 该 方法 可 以 形式 化 为 一 个 求解 图 二 


次 规划 。 


支持 向 量 机 模型 


线性 可 分 支持 向 量 机 
硬 间隔 
hard-margin SVM 


己 

SVM 由 简 至 繁 可 分 为 三 类 名 
b 

线性 支持 向 量 机 非 线性 支持 向 量 机 乌 

软 间隔 Kernel SVM 汤 


softmargin SVM 


SVM 中 存在 三 宝 : 间隔 、 
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SVM 由 简 至 繁 可 分 为 三 
硬 间隔 (hard-margin 


间隔 (soft-margin svm ) 


Kernel SVM。 


SVM 中 存在 三 


2 ) 模型 优 缺 点 


(1) SVM 模型 优点 


: 本 隔 、 对 偶 、 


: 线性 可 分 支持 向 量 机 、 
; 线性 文 持 向 量 机 、 软 
; 非 线性 文 持 向 量 机 、 


核 技巧 。 


支持 向 量 机 模型 


钙 优 化 问 3 题 
的 解 是 全 局 
最 优 


人 


果 优异 


小 样本 量 
2 本 


下 

对 干 核 函数 的 只 

计算 量 关 样本 量 高 维 员 出 解释 
上 油 ， 不 适用 二 力 不 强 疡 
超大 数据 集 


栎 个 数据 


。 SVM 是 一 


个 凸 优化 问题 


, 求 得 的 解 一 定 是 全 局 


最 优 而 不 仅仅 是 局 部 最 优 。 


。 不 仅 适 用 于 线性 问题 ， 还 适用 于 非 线 性 问题 
(借助 核 技 巧 ) 。 


。 模型 鲁 棒 性 好 ， 决 策 边 界 只 取决 于 支持 向 量 而 
不 是 全 部 数据 集 。 


。 中 小 样本 量 数据 集 上 效果 优异 。 
需 依赖 整个 数据 。 
。 泛 化 能 力 比较 强 。 
(2 ) SVM 模型 缺点 
。 二 次 规划 问题 求解 将 涉及 n 阶 和 矩阵 的 计算 (其 
中 m 为 样本 的 个 数 ) ， 计 算 量 随 样本 量 上 涨 历 
害 ， 因 此 SVM 不 适用 于 超大 数据 集 。 


。 原始 SVM 仅 适 用 于 二 分 类 问题 。 (当然 ，SVM 
的 推广 SVR 也 适用 于 回归 问题 ; 我 们 也 可 以 通 
过 one-vs-one ，one-vs-rest 等 思路 组 合 SVM 来 


解决 多 分 类 问题 ) 。 


。 对 非 线 性 问题 没有 通用 解决 方案 ， 有 时 候 很 难 


找到 一 个 合适 的 核 涵 数 。 


。 对 于 核 衣 数 的 高 维 映 射 解释 力 不 强 ， 盛 其 是 
向 基 双 效 。 


。 SVM 对 缺失 效 据 敏感 。 
更 多 监督 学 习 的 算法 模型 总 结 可 以 查看 ShowMeAI 
的 文章 Al 知识 技能 速 但 | 机 器 学 习 - 监 督学 习 。 
4. 基 于 Python 的 SVM 代码 实 
践 


1 ) 算法 包 说 明 

我 们 这 里 直接 借助 于 python 机 器 学 习 工 具 包 sklearn 
来 演示 SVM 的 应 用 ，sklearn 中 对 SVM 的 算法 实现 都 
包 在 sklearn.svm 下 面 ， 有 具体 见 sklearn 官 方 文档 ,其 
中 SVC 类 是 用 来 进行 进行 分 类 的 任务 ，SVR 是 用 来 
进行 数值 回归 任务 的 。 


不 同 的 核 函 数 需要 指定 不 同 的 参数 。 


。 针 对 线性 函数 ， 只 需要 指定 参数 C， 它 表示 对 


符合 最 大 间距 规则 的 样本 的 惩 习 力度 。 


针对 多 项 式 核 甸 数 ， 除 了 参数 C 外 ， 还 需要 指 
定 degree， 它 表示 多 项 式 的 阶 数 。 


针对 高 斯 核 冰 数 ， 除 了 参数 C 外 ， 要 指定 
gamma 值 ， 这 个 值 对 应 的 是 全 式 中 1 
2a2'racf1}{f2\sigma ^2} 2021 的 值 。 


2 ) 使 用 线性 核 永 效 


ED TU SS 
二 信念 王 人 OOEa 


于 下 人 到 
Iris = Qqatasets. Loadq_iris'() 
X=iris.dqata[:，:2] # 只 取 前 两 维特 征 ， 方 便 可 视 化 


本 


SVC = SVvm.SVC (kernelL="'1Linear7'，， C=1L) .fit(X | yY) 


2 () 
本 二 人 二 站 全 人 人 全 ROSEnax() 
人 


交叉/ 三 届 机 二 而 训 且 丰 本 下 人 和 全 作文 二 页 有， 上) ， 


ie 记忆 下 Gin 全 本 
2 三 划 SVESBEEdmeE(nEECEIIEZRESVSE OF YEaXeil() ]) 
2 = 2.reshape(xx.SsShape) 


ELEEConeour AZACmaPEELESCnm Raneeadl alLph 


EscaeeecIeOU LI CCmaDPUr .cm.P 
站 下 起 本 xiagbeSepbalsnmghhu yy 
PLt.ylLlabel("Sepal widaqth '" ) 
Emal 
PLt.title("SVC with Linear Kernel ) 
忆 业 ESmOmw 全 
"linear ， 人 二 Cs 
支持 向 量 机 模型 机 
所 过 本 岂 
2 rs 使 用 线性 核 本 数 
网 作 PR 。 
15 罗 人 提 索 | 微 信 ShowMeAl 研 究 中 心 ， 
中 httpwww.showmeaitechy 了 和 


3 ) 使 用 多 项 式 核 函 数 
初始 化 svm 对 象 的 代码 替换 为 下 面 这 行 


SVC = SvVvm.SVC (kernelL='pPoly'，dqegree=3) .fit (X，， Y) 


支持 向 量 机 模型 了 和 
| -| 
人 Se 开 
殊 rs 使 用 多 项 式 核 到 数 
昌 刘 
MA 
人 CO 搜索 | 微 信 ShowMeAl 研 究 中 心 | 


4 ) 使 用 rbf 核 永 效 ( 局 斯 核 阔 效 ) 
初始 化 svm 对 象 的 代码 蔡 换 为 下 面 这 行 


SNC 攻 三 量 SYImRSNGASE 而 E 下 三 站 二 他 三 下 七 9) 


支持 向 量 机 模型 
区 隔 要 多 
Am 使 用 rbf 核 函数 
AR 高 斯 核 函 数 
曙 各 尖 生 


| 加 宴 索 | 徽 信 ShowMeAl 研 究 中心 | 


中 http/www.showmeaitechy 


Sepallength 


gamma 值 越 大 ，SVM 就 会 倾向 于 越 准确 的 划分 每 
一 个 训练 集 里 的 数据 ， 这 会 导致 泛 化 误差 较 大 和 过 
拟 合 问题 。 


虑 可 

gamma 值 越 太 ，SVM 就 会 倾向 干 越 准确 的 划分 每 一 个 训练 集 里 的 数据 嗓 
这 会 导致 泛 化 误差 较 大 和 过 拟 合 问题 本 

支持 向 量 机 模型 
| 

加 盖 | 


amma= amma= Eamira=TOO 让 
(搜索 | 微 信 ShowMeAI 研 究 中 心 | 


C : 错误 项 的 惩罚 参数 C。 它 还 控制 平滑 决策 边界 和 


正确 分 类 训练 点 之 间 的 权衡 。 


错误 项 的 惩罚 参数 C 
控制 平滑 决策 边界 和 正确 分 类 训练 点 之 间 的 权衡 垃 
是 时 < 
四 0 
、 
0 0 休 究 中 心 


中 http:Wwww.showmeaitechy 
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.支持 向 量 机 ( SVM ) 
.支持 向 量 机 (SVM) 基 础 
看 了 这 篇 文章 你 还 不 懂 SVM 你 就 来 打 我 
饮 频 教 程 
可 以 点 击 B 站 查看 视频 的 【双语 字幕 】 版 本 
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ShowMeAl 系 列 教程 推 荐 


。 图解 Python 编程 : 从 入 门 到 精通 系列 教程 

。 图 解数 据 分 析 : 从 入 门 到 精通 系列 教程 

。 图解 Al 数学 基础 : 从 入 门 到 精通 系列 教程 

。 图解 大 数据 技术 : 从 入 门 到 精通 系列 教程 

。 图 解 机 器 学 习 算 法 : 从 入 门 到 精通 系列 教程 


Sh@w Me Al 


图 解 机 器 学 习 | 聚 关 算法 详解 


原文 : https:Wblog.csdn.net/ShowMeAIl/ 
article/details/123408397 


ShowMeAl ”[ 国 贡 有 


研 究 中 时 国 几 sa 辐 2xs 相国 so 语 国 十 . 感 


作者 : 韩信 子 @ShowMeAI 

教程 地 址 : http:/www.showmeai.tech/tutorials/34 
本 文 地 址 : http:W/www.showmeai.tech/article- 
detail/197 

声明 : 版 权 所 有 ， 转 载 请 联系 平台 与 作者 并 注 明 出 
处 


5 上 言 


聚 类 (Clustering ) 是 最 常见 的 无 监督 学 习 算 法 ， 它 
指 的 是 按照 某 个 特定 标准 (如 距离 ) 把 一 个 数据 集 


分 割 成 不 同 的 类 或 复 ， 使 得 同一 个 复 内 的 数据 对 象 
的 相似 性 尽 可 能 大 ， 同 时 不 在 同一 个 复 中 的 数据 对 
象 的 差异 性 也 尽 可 能 地 大 。 也 即 聚 类 后 同一 类 的 数 
据 尽 可 能 聚集 到 一 起 ， 不 同类 数据 尽量 分 离 。 


聚 类 算法 在 很 多 场景 下 都 有 应 用 ， 例 如 新 闻 自 动 分 
组 ， 用 户 分 群 ， 图 像 分 割 等 等 。 很 多 时 候 ， 无 监督 
的 聚 类 算法 ， 得 到 的 聚 类 结果 还 可 以 作为 特征 在 后 
续 监 督学 习 中 应 用 ， 提 升 整体 效果 。 本 篇 内 容 
ShowMeAl 囊 大 家 一 起 来 学 习 一 下 聚 类 算法 。 


(本 篇 聚 类 算法 部 分 内 容 涉 及 到 机 器 学 习 基 础 知 
识 ， 没 有 先 序 知 识 储备 的 宝宝 可 以 查看 ShowMeAI 
的 文章 图 解 机 器 学 习 | 机 器 学 习 基 础 知识 。 


2 < 日 
1. 聚 类 问题 


1 ) 聚 关 问题 与 核心 概念 

俗话 说 人 以 类 聚 物 以 群 分 ， 聚 类 算法 做 的 事情 ， 就 
是 对 无 标签 的 数据 ， 基 于 数据 分 布 进行 分 群 分 组 ， 
使 得 相似 的 数据 尽量 落 在 同一 个 艇 内 。 


| 
票 类 问题: 按照 某 个 特定 标准 把 一 个 数据 集 分 割 成 不 同 的 类 或 和 能， 使 得 同一 个 能 内 的 工 
数据 对 象 的 相似 性 尽 可 能 大 ， 同 时 不 在 同一 个 往 中 的 数据 对 象 的 差异 性 也 尽 可 能 地 大 三 


聚 类 算法 详解 


应 用 场景 : 
“* 相似 用 户 挖掘 /社区 发 现 


核心 概念 
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我 们 先 对 比 区 分 一 下 聚 类 和 分 类 : 


科 


， 聚 类 是 一 种 无 监督 学 习 ， 而 分 类 是 一 种 有 监督 
的 学 习 。 

， 聚 类 只 需要 人 工 指定 相似 度 的 标准 和 类 别 数 就 
可 以 ， 而 分 类 需要 从 训练 集 学 习 分 类 的 方法 。 


全 


聚 类 算法 详解 


Classification 分 类 


旋 督 学 习 


只 需要 告诉 一 个 Classifier( 介 类 器 ) -人 
西 被 分 为 某 类 " 这样 一 些 例子 。 人 
理想 情况 下 ，Classifier 会 从 训练 集中 进行 
而 有 具备 对 未 知 数据 进行 分 类 的 能 
搜索 | 徽 信 ShowMeAI 研究 中 心 | 


把 相似 的 东西 分 到 一 组 。 聚 类 并 不 关心 某 一 
类 是 什么 ， 目 标 只 是 把 相似 的 东西 聚 到 一 起 。 


一 个 聚 类 算法 通常 只 需要 知道 如 何 计算 相似 
度 ， 就 可 以 开始 工作 了 。 


2 ) 聚 拓 算法 用 途 


聚 类 算法 应 用 非常 广泛 。 在 面 对 未 知 的 世界 时 ， 先 
分 类 ， 再 逐个 研究 ， 是 人 类 探索 未 知 世 界 的 一 个 基 
本 方法 。 聚 类 算法 可 以 应 用 于 探索 性 数据 挖掘 、 统 
计 分 析 、 生 物 信 息 学 、 数 据 压 缩 、 计 算 机 图 像 识 


别 、 医 学 影像 分 析 等 ， 在 商业 领域 可 以 用 来 做 市 声 
研究 、 商 品 归 类 ， 在 社会 科学 领域 可 以 用 来 做 犯 罪 
区 域 分 析 等 等 


下 图 中 有 一 些 样 本 点 ， 我 们 根据 物理 距离 的 远近 
把 所 有 的 点 分 成 3 类 。 你 只 需要 告诉 算法 这 > 些 信息 
算法 就 可 以 按照 你 的 要 求 完 成 聚 类 : 


蒜 
检 
| 江 
烛 四 
过 
区 


类 标 准 是 物理 距离 
。 分 好 的 类 分 别 用 红 、 绿 、 蓝 表示 。 


根据 物理 下 离 的 远近 ， 杷 所 有 的 点 分 成 红 、 绿 、 蓝 等 3 类 


事 类 算法 详解 Original Unclustered Data Clustered Data 


| 
| 


算法 用 途 示例 1 


人 二 3 ee 
GE httpWwwwshowmeaitech/ | 机 机 会 ShowMeAil 研 究 中 心 


实际 上 ， me CE 
到 、 计 算 机 可 以 通过 运算 和 逻辑 进行 判断 的 规则 ， 
都 可 以 作为 分 


下 面 我 们 用 图 像 讨 缩 作为 例子 来 解释 一 下 。 最 左边 
是 一 张 彩 色 照 片 ， 大 小 约 H1Mb， 通 过 压缩 可 以 把 它 
变 成 几 十 到 几 百 Kb， 这 就 是 压缩 软件 的 实现 过 程 。 


那么 压缩 软件 的 实现 原理 是 什么 呢 ? 其 中 一 种 融 是 
聚 类 算法 。 


从 原始 图 片 到 压缩 存 储 的 过 程 如 下 图 所 示 : 


聚 类 算法 详解 


数据 压缩 
对 数据 校 妥 相 人 
性 过 行 组 织 , 相 尼 
似 的 数据 在 一 个 
image | K=3 K-10 类 中 , 距离 较 远 局 
的 数据 在 不 同 (K 
个 ) 类 中 。 每 个 类 
43,200X8X3= 


算法 用 途 示例 -数据 压缩 图 像 大 小 bits 0 86.472 173.040 中 只 需要 存储 一 


个 代表 元 s 
压 绾 率 六 8.3% CT6i 禾 | 微 信 ShowMeAl 研 究 中 心 


每 个 像素 包含 


240X180=43,200 


中 httpwww.showmeaitechy 


聚 类 算法 同样 可 以 用 于 图 像 分 着。 图 像 中 每 一 个 像 

素 点 是 一 个 3 维 向 量 ， 对 应 [R, G, B] 像素 值 。 给 定 
桶 类 中 类 s 别 个 数 K， 算 法 用 K 个 不 同 的 颜色 来 表示 原 
来 的 图 像 ， 每 个 像素 点 用 K 个 颜色 中 一 个 表示 。 有 具 
体 如 下 : 


图 像 分 害 : 将 一 幅 图 像 介 旬 成 图 像 中 每 一 个 像素 点 是 一 个 3 维 向 量 ， 对 应 [R，G, B] 像 
不 同 区 域 ， 理想 情况 下 每 一 个 壳 值 给 定 紧 类 中 类 别 个 数 K， 算 法 用 K 个 不 同 的 颜色 来 
认 二 向 | 加 
算法 用 途 示例 -图 像 分 芭 四 表示 原来 的 固 像 ， 每 个 傻 束 点 用 K 个 颜色 中 一 个 表示 。 


_) 福 索 | 微 信 ShowMeAl 研 究 中 心 | 
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对 于 文档 、 新 闻 、 和 了 司 , 很 多 时 候 我 们 会 使 用 
谱 套 的 归 类 方法 ， 这 是 一 种 层次 化 聚 类 : 


nested clusters 量 


U 应 用 : 文档 /新 闻 权 类 ， 
全 |] 商品 有 类 网 


BC 


数据 层次 化 组 织 ; 对 数据 掖 照 不 。。 输出 ;二叉树 ， 每 个 内 部 节点 信 表 一 个 Cluster, 每 个 时 节 
同 的 粒度 进行 聚 类 划分 。 操作 表 一 个 数据 | C 1 人 索 | 向 舍 ShowMeA1 研 究 中 心 | 


我 们 先 对 聚 类 算法 做 个 了 解 ， 主 流 的 聚 类 算法 可 以 
分 成 两 类 : 划分 聚 类 (Partitioning Clustering ) 和 
层次 聚 类 (Hierarchical Clustering ) 。 他 们 的 主要 
区 别 如 图 中 所 示 : 


划分 聚 类 算法 会 给 出 一 系列 扁平 结构 的 族 〈 分 开 的 
几 个 类 ) ， 它 们 之 间 没 有 任何 显 式 的 结构 来 表明 彼 
此 的 天 联 性 。 


。 常见 算法 有 K-Means/K-Medoids、Gaussian 
Mixture Model 〈 高 斯 混合 模型 ) 、Spectral 
Clustering ( 谱 聚 类 ) 、Centroid-based 
Clustering 等 。 


层次 聚 类 会 输出 一 个 具有 层次 结构 的 族 集 合 ， 因 此 
人 
-中 


能 够 比划 分 聚 类 输出 的 无 结构 复 集 合 提供 更 丰富 的 


信息 。 层 次 聚 类 可 以 认为 是 是 庶 套 的 划分 聚 类 。 


。 常 见 算法 有 Single-linkage、Complete- 
linkage、Connectivity-based Clustering 等 。 


这 两 类 算法 在 聚 类 过 程 中 用 到 的 具体 算法 不 一 样 ， 


后 文 我 们 会 重点 展开 讲 一 下 K-Means 算 法 、Single- 
linkage 算 法 和 Complete-linkage 算 法 。 


Le KMeans/Kmedoids 
划分 聚 类 Gaussian Mixture Modei 


Spectral clustering 
要 要 一 系列 扁平 结构 的 
聚 类 算法 详解 人 Centroid-based clustering 


划分 聚 类 Vs. 层次 聚 类 0 人 
二 全 
一 个 具有 层次 结构 的 能 集合 ”Connectivitybas 中 
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2.K-Means 聚 类 算法 


K-Means 算 法 是 聚 类 算法 中 一 个 非常 基础 的 算法 ， 
同时 应 用 又 非 营 广汉 ， 下 面 ShowMeAI 给 大 家 展开 
讲解 算法 原理 。 


1 ) K-Means 算 法 核心 概念 


我 们 提 到 了 聚 类 算法 要 把 n 个 数据 点 按照 分 布 分 成 k 
类 (很 多 算法 的 k 是 人 为 提前 设 定 的 ) 。 我 们 希望 通 
过 聚 类 算法 得 到 k 个 中 心 点 ， 以 及 每 个 数据 点 属于 哪 
个 中 心 点 的 划分 。 


。 中心 点 可 以 通过 和 迭代 算法 来 找到 ， 满 足 条 件 : 
所 有 的 数据 点 到 聚 类 中 心 的 距离 之 和 是 最 小 
的 。 


。 中 心 点 确定 后 ， 每 个 数据 点 属于 离 它 最 近 的 中 
心 点 


AAAVO 


在 进入 "如何 寻找 中 心 点 4: 这 个 核心 问题 之 前 ， 我 
们 先 解 决 几 个 小 问题 : 


EM 
将 n 个 数据 点 分 扎 k 类 号 
而 
避 拉 k 个 中 心 点 ， 合 得 所 有 的 数据 点 到 村 类 中 心 的 距离 之 和 是 最 小 到 
聚 类 算法 详解 帮 
如 何 对 数据 与 中 心 之 。” 如何 最 优选 树 中 心 点 ? 聚 类 结果 如 何 ? 忆 
间 的 距离 进行 度量 ? 。 对 于 d>1， 全 局 最 优 对 干 空 间 的 Voronoi 站 
使 用 L2 距 离 的 平方 。 。” 是 NP-hard 问 题 。 分 割 。 
心 概念 人 

人 | 帮 到 
和 加 下 | CC 起 索 | 党 信 ShowMeh1 研 究 中 心 


中 httpwww.showmeaitechy 


Q1 : 数据 点 到 中 心 点 的 距离 如 何 计算 ? 
。 我们 一 般 选 择 几 何 距离 ， 就 是 L2 距 离 的 平方 。 


Q2 : 中 心 点 是 否 唯一 ， 或 者 说 ， 是 不 是 存在 全 局 最 
优 解 ? 


。 对 于 多 个 中 心 点 的 情况 ， 全 局 最 优 是 一 个 相当 
难 的 问题 。 理 论 上 存在 一 个 全 局 最 优 解 ， 但 是 
不 一 定 能 找到 。 既 然 全 局 最 优 解 不 好 找 ， 那 我 


们 退 而 求 其 次 ， 看 能 不 能 找到 局 部 最 优 解 。 
Q3 : 聚 类 结果 如 何 表示 ? 
。 采用 空间 分 割 的 方式 : 将 空间 分 割 成 多 个 多 边 
形 ， 每 个 多 边 形 对 应 一 个 cluster 中 心 。 
2 ) K-Means 算 法 步骤 


K-Means 采 用 EM 算法 友 代 确定 中 心 点 。 流 程 分 两 


步 : 
。 @ 更 新 中 心 点 : 初始 化 的 时 候 以 随机 取 点 作为 
起 始点 ; 友 代 过 程 中 ， 取 同一 类 的 所 有 数据 点 
的 重心 〈 或 质心 ) 作为 新 中 心 点 。 
。Q@ 分配 数据 点 : 把 所 有 的 数据 点 分 配 到 离 它 最 
近 的 中 心 点 。 


重复 上 面 的 两 个 步骤 ， 一 直到 中 心 点 不 再 改变 为 
止 。 过 程 如 图 所 示 : 


四 到 
最 优 聚 类 中 心 王 
当前 Cluster 中 所 有 数据 点 的 质心 算数 平均 值 ) 人 
聚 类 算法 详解 : 3 - ] 
” ”Assignments| 村 Refittec: 
2 吕 | 一 bb “ means 
量 一 9 根据 中 心 介 配 样本 点 最 重新 计算 中 心 点 
2 
二 有 oO 
太 = 二 》 2 
i=1 
油 信 ShowMeAI 研 究 中 心 | 
中 http:Wwww.showmeaitechy 


。 左 侧 Assignments : 一 开始 随机 选取 三 个 点 ， 
ee ， 基 于 其 它 点 和 这 三 个 中 心 
点 的 距离 分 ; 每 一 类 重新 计算 和 分 配 中 
心 。 


右 侧 Refitted Means : 根据 新 的 中 心 点 ， 重 新 
分 配 所 有 的 数据 点 (原来 属于 绿色 中 心 点 的 1 
个 点 ， 此 次 色 代 后 变 成 属于 红色 中 心 点 了 ) 。 


下 图 的 示例 展示 了 K-Means 动 态 和 迭代 收敛 的 过 程 


送 代 直至 收 全 |] 当 | - 渐 外 区 5 
桶 类 算法 详解 ia 人 2 


将 每 一 个 数据 点 介 配 至 距离 最 近 的 中 心 ,| . 济 


小 
算法 步 双 重 拟 合 步骤 : | 民 , 济 攻 注 1 导 | 
| 各 全 Shao' 


根据 新 的 分 配 重新 计算 聚 类 中 心 


> httpWwww.showmeaitechy 


。 图 (a) 上 有 一 群 散落 的 点 ， 我 们 设 定 复 数 
K=2。 


。 图 (b ) 为 随机 找 2 个 点 作为 中 心 初 始 化 后 ， 第 


一 次 分 类 的 结果 。 


〇 可 以 看 到 ， 红 蓝 分 界线 在 这 群 点 的 中 央 穿 
过 。 这 显然 有 问题 ， 不 过 没 天 系 ， 算 法 继 
续 往 下 走 。 对 红 蓝 两 类 分 别 计算 它们 的 中 


。 图 (c) 可 以 看 到 ， 一 个 洛 在 左下 方 这 一 团 
里 ， 另 一 个 洛 在 右上 方 那 一 团 里 。 以 新 的 中 心 
点 进行 第 二 次 分 类 。 

。 图 (d ) 的 分 界线 就 基本 是 已 经 可 以 把 两 团 分 
天 了 

。 图 (f)、(g ) 显示 后 续 重 复 计 算 你 ' 中 心 点 - 
分 类 数据 点 4 的 过 程 已 经 收 你 ， 数 据点 分 配 基 
本 不 动 了 ， 聚 类 完成 。 


下 方 的 动 图 能 更 清晰 地 展示 这 个 过 程 : 


KMeans Iteration: Total Within Cluster Sum of Squares: 


Kmeans iterations 


3.K-Means 缺 点 与 改进 


1 ) K-Means 算 法 缺点 


K-Means 算 法 简单 易 用 ， 它 有 什么 缺点 呢 ? 我 们 将 
K-Means 算 法 的 一 些 缺点 总 结 如 下 : 


。 缺点 1 : 中 心 点 是 所 有 同一 类 数据 点 的 质心 ， 
所 以 聚 类 中 心 点 可 能 不 属于 数据 集 的 样本 点 。 


。 和 缺点 2 : 计算 距离 时 我 们 用 的 是 L2 距 离 的 平 
方 。 对 离 群 点 很 敏感 ， 噪 声 ( Noisy Data ) 和 
离 群 点 (Outlier ) 会 把 中 心 点 拉 偏 ， 甚 至 改变 
分 割 线 的 位 置 。 


2 ) K-Medoids 算 法 


针对 K-Means 算 法 的 缺点 改进 得 到 了 K-Medoids 算 
法 : 


(1 ) 限制 聚 类 中 心 点 必须 来 自 数据 点 。 


ee 由 原来 的 直接 计算 重 


变 成 计算 完 重 心 后 ， 在 重心 附近 找 一 个 数 
Rs 


。K-Medoids 重 拟 合 步骤 比 直接 求 平 均 的 K- 


Means 要 复杂 一 些 。 


(2 ) 为 避免 平方 计算 对 离 群 点 的 敏感 ， 把 平方 变 成 
绝对 值 。 


总 疆 


总 结 来 说 ，K-Medoids 算 法 的 迭代 过 程 与 K-Means 
是 一 致 的 ， 不 同 点 如 下 所 示 : 


本 下 
,。 桶 类 中 心 上 不 一 定 履 干 数据 集 思 
E 台 
K-Means 由 干 使 用 『L2 距 离 函 数 ， 容 易 被 离 群 点 和 吧 音 数据 影响 于 
法 jl 二 K-Mean ] 
人 mnt 光 可 we- 人 VClustering 
rn 直 校 计算 重心 Up *。。 0 沁 
距 高 1 这 sterwean 
1 计算 重心 并 人 
站 0 we 区 
算法 缺点 并 ， 作为 新 的 中 心 点 Medoids 
本 0) 一 冯 TDSE 1 
| CR 党 | 沿 信 ShawWieAl 圳 问 中 必 
中 http:Wwww.showmeaitechy 


。 起 始点 不 是 随机 点 ， 而 是 任意 选择 数据 集中 的 


AAAO 


。 距离 使 用 L1 距 离 ， 而 不 是 L2 距 离 。 


。 新 的 中 心 点 ， 也 不 是 同类 所 有 点 的 重心 ， 而 是 
同一 类 别 所 有 数据 点 中 ， 离 其 它 点 最 近 的 点 。 


。 复杂 度 方面 ， 相 比 于 K-Means 的 O(n)O(n) 
On) ，K-Medoids 更 新 中 心 点 的 复杂 度 O(n2 
) O(n^2) O(n2) 要 更 高 一 些 。 


下 图 是 K-Means 和 K-Medoids 两 个 算法 的 一 个 系统 
对 了 此: 


每 BewwiecAI 
as 


距离 函数 。 L2 函数 LI 函数 -| 
聚 类 算法 详解 村 类 中 心 Cluster 中 所 有 数据 的 质心 cluster 中 最 中 心 的 数据 点 三 
=-| 
Robust? 否 是 确 
更 新 聚 类 中 心 复杂 度 0CD Of 
初始 化 敏感 ? 。 是 


专 | 沉 舍 ShowMeAl 研究 中 心 ] 


4. 层 次 聚 类 算 ; 


相 比 于 K-Means 这 类 划分 聚 类 ， 我 们 有 另外 一 类 层 
次 化 聚 类 算法 。 


八 
AAA 
蔬 
XI 


人 


K-Means/K-medoids 
划分 聚 类 Gaussian Mixture Model 
Spectral Clustering 
洒 j 一 系列 扁平 结构 的 往 
聚 类 算 法 详 解 Centroid-based Ciustering 
SingieJinkage 
层次 聚 类 
划分 聚 类 层次 了 桶 类 Completejinkage 


一 个 具有 层次 结 风 的 入 集合 ”Connectivity based estermg 一 一- 守 一 哆 - 忆 一 - 
机 这 | 向 舍 才 9 虽 昌 本 罕 电 了 | 


个 http:Wwwwshowmeaitechy 


从 层次 化 聚 类 转换 为 划分 聚 类 很 简单 ， 在 层次 化 聚 
类 的 某 一 层 进行 切割 ， 就 得 到 1 个 划分 聚 类 。 如 下 图 


层次 聚 类 了 
习 
在 二 叉 树 的 | 
聚 类 算法 详解 | 3 
| 关 | 
划分 聚 类 
划分 聚 类 层次 聚 类 


由 赴 


栅 索 | 微 信 LDL 


中 httpWwww.showmeaitechy 


2 ) Single-Linkage 算法 


接 下 来 我 们 介绍 一 个 层次 聚 类 中 的 Single-Linkage 
算法 。 这 个 算法 是 构造 一 棵 二 叉 树 ， 用 叶 节 点 代表 
数据， 而 二 叉 树 的 每 一 个 内 部 节点 代表 一 个 聚 类 。 
如 图 所 示 : 


初始 化 ; 


算法 将 每 个 数据 看 成 一 个 类 别 


聚 类 算法 详解 迁 代 直至 只 有 一 个 类 : 


* 选择 距离 最 近 的 两 个 类 进行 
合并 


” 将 被 合并 的 两 个 类 从 现 有 类 
中 删除 
* 将 合并 后 得 到 的 新 类 加 入 现 


Single-Linkage 算 法 从 下 而 上 的 聚 类 : 这 棵 树 先 有 叶子 ， 顺 者 叶子 逐渐 长 树枝 ， 


一 直到 树 根 。 图 中 有 了 本 数据 上 /一 
\ 必 楼 党 | 德 信 


这 是 一 个 从 下 而 上 的 聚 类 。 这 棵 树 是 先 有 叶子 ， 顺 
着 叶子 逐渐 长 树枝 ， 树 梳 越 长 越 大 一 直到 树 根 。 


如 果 叶 子 很 多 ， 这 个 生长 过 程 需要 合并 的 类 就 会 很 
多 。 图 中 有 11 个 数据 点 ， 一 共 发 生 了 10 次 合并 。 


3 ) Complete-Linkage 算 法 


与 Single-Linkage 算 法 相似 ，Complete-Linkage 的 
返 代 思路 是 一 样 的 ， 不 同 的 是 在 合并 类 时 ，Single- 
Linkage 是 用 两 个 类 中 距离 最 小 的 两 个 点 作为 类 之 间 
的 距离 ， 而 Complete-Linkage 恰 恰 相 反 ， 用 距离 最 
远 的 两 个 数据 点 之 间 的 距离 作为 这 两 个 类 之 间 的 距 
离 。 


这 两 种 计算 方法 各 有 利弊 。 总 的 来 说 ， 层 次 聚 类 的 
计算 复杂 度 是 O (n 3 ) On^3) O(n3) 级 别 ， 算 是 很 
高 的 了 。 可 以 用 优先 队列 的 数据 结构 对 算法 加 速 ， 
加 速 后 能 减低 到 O (n 2Ilog n ) O(n^{2} NMogfn} ) 


On2logn) 的 级 别 。 


两 个 类 中 曰 高 最 小 的 两 个 数据 点 
计算 类 之 间 的 距离 
Single-Linkage 让 [区 到 zj 复杂 度 00a) 


聚 类 算法 详解 用 从 先 队 而 的 
数据 结构 


对 算法 加 速 


7 朋 攻 e 全 开 


证 


汪 dSi 51) 一 六 二 避 几 一 2 复杂 度 0(n21og7D 
(CompPIete Linkage 人 
计算 两 个 类 之 间 的 距离 CC 要 过 | 徽 信 ShowMeAl 研究 中 心 | 


httpWwww.showmeaitechy 


5.DB-SCAN 算 ; 


1) DB-SCAN 算 法 


在 前 面 的 内 容 中 我 们 介绍 了 划分 聚 类 和 层次 聚 类 的 
算法 ， 接 下 来 我 们 学 习 另 外 一 个 聚 类 算法 : DB- 
SCAN 算 法 。 


DB-SCAN 是 一 个 基于 密度 的 聚 类 。 如 下 图 中 这 样 不 
规则 形态 的 点 ， 如 果 用 K-Means， 效 果 不 会 很 好 。 
而 通过 DB-SCAN 就 可 以 很 好 地 把 在 同一 密度 区 域 的 
点 聚 在 一 类 中 。 


en 
聚 类 算法 详解 人 区 


K-Means 


2 ) DB-SCAN 算 法 的 天 键 概念 


核心 对 象 〈 Core Object ) ， 也 就 是 密度 达到 一 定 程 
度 的 点 。 


。 若 xjx jx 的 e -Nin-e- 邻 域 至 少 包含 
MinPts 个 样本 ,， 即 |Ne(xj)l>MinPts| 
N_in (x_j )|>MinPts IN es (xj)>MinPts， 则 xj 
x_j xj 是 一 个 核心 对 象 。 


密度 直达 (directly density-reachable ) ， 密 度 可 达 
(density-reachable ) : 核心 对 象 之 间 可 以 是 密度 
直达 或 者 密度 可 达 。 


。 若 xix_ ixi 位 于 xjx jx 的 es -Nin- ee=- 邻 域 
中 ， 且 xj x_ jx 是 核心 对 象 ， 则 称 xj x_j xj 由 
xjx_j xj 密度 直达 。 


。 对 xix .jixi 与 xjx jx, 若 存在 样本 序列 p 1 ， 


p2,.…,pnp lp 2,dqots,p_npfp2,…pn 
,其 中 1 =Xxip_1=x ip1=xi，pn=xj 
p_n=x_j pn=xj 且 pi+1pi+lpi+l 由 pip ipi 
密度 直达 ， 则 称 xj x_ j xj 由 xix_i xi 密度 可 
达 。 
密度 相连 〈density-connected ) : 所 有 密度 可 达 的 
核心 点 就 构成 密度 相连 。 


。 对 xix.ixi 与 xjx jx, 若 存在 xkx kxk 使 得 
xix ixi 与 Xjx jx, 均 由 xkx kxk 密 度 可 
达 ， 则 称 xi xi xi 与 xjx jxj 密 度 相 连 。 


我 们 通过 下 图 帝 入 理解 一 下 刚才 提 到 的 几 个 基本 概 


念 。 


| 
hs 甸 
| 


令 MinPts 二 浊 


事 类 算法 详解 f - 座 省 总 虚线 显示 出 MinPes = 3 久 域 忆 
人 7 5 0 加 
4 本 ma 是 核心 对 梨 加 
人 
0 0 。 六 由 心 宣 度 可 达 
关键 概念 图 解 和 。 z 与 xx 密度 相连 


担 索 | 党 信 ShowMeAI 研 究 中心 | 


中 http:Wwww.showmeaitechy 


先 假 设 要求 的 最 小 点 密度 MinPts 是 3。 


。 在 一 个 半径 范围 内 ，x 1 x_1 xl 这 个 点 周围 的 
点 数 是 5， 超 过 了 国 值 3， 所 以 x1 x_1 x1 是 一 


3 ) 


个 核心 对 象 。 同 样 ，x2Xx 2x2、Xx3x 3x3 
和 Xx4x 4x4 也 是 核心 对 象 。 


Xx1x 1x+ 与 X2X 2Xx2 处 于 一 个 邻 域 ， 所 以 二 
者 是 密度 直达 的 关系, 而 X3x 3x3 与 X2X 2 
x2 也 是 密度 直达 的 关系 ， 通过 x2x 2x2， 
1x 1x1+ 与 Xx3Xx 3Xx3 是 密度 可 达 的 关系 。 


x3x 3x3 与 X4Xx 4Xx4 通 过 多 个 核心 对 象 实现 
密度 相连 。 


DB-SCAN 算 法 伪 代 码 


加 11: 记录 当前 未 访问 样本 集合 : Fola 吕 
DB-SCAN 算 法 伪 代 码 12: ”随机 选 取 一 个 核心 对 象 e Oo 下 ylo- =<o 
13: 了 =TNV{oli 世 
输入 : 样本 集 忆 = {zlza ,za 14。 while @ 关 台 d 谍 
邻 域 参数 (e, MinPts) 15: 取出 队列 @ 中 的 首 个 样 本 9 加 
过 程 : 16: 证 |Ne(g)| > MinPts then ] 
1: 初始 化 核心 对 象 集合 : Q = 马 17: 令 A= Ne(g) 门 [; 唱 
2: for 了 = 1,2,...,m do 18: 将 A 全 的 样本 加 入 队列 国 
3: 确定 样本 nj 的 邻 域 Ne(zj)i 19: T=TNVA 


本 
5 
6: 
要 


将 伴 本 ny 加 入 核对 旬 集 合 :9 = QU。 2 end while 
end 


8: 初始 化 聚 类 全 数 : 大 一 0 24: end whbile \ 亿 搜索 | 微 信 ShowMeA1 研 究 中 心 | 
9: 初始 化 未 访问 样本 集合 : 工 = 也 输出 ; 入 划分 C- [CU GD 要 可 


10: whileQ 尖 C do 


让 |Ne(zj]| > MinPts then 20: end 让 


22: 大 一 大 十 1, 生成 聚 类 能 Ck = Toud \T; 
人 23: QQ=QNCk 


这 个 过 程 用 直 白 的 语言 换 述 融 是 : 


。 对 于 一 个 数据 集 ， 先 规定 最 少 点 密度 MinPts 和 


半径 范围 。 


。 先 找 出 核心 对 象 : 如 果 在 半径 范围 内 点 密度 大 


于 MinPts， 则 这 个 点 是 核心 对 象 。 把 所 有 的 核 


心 对 象 放 到 一 个 集合 中 。 


从 这 个 核心 对 象 集 合 中 ， 随 机 找 一 个 核心 对 
象 ， 判 断 其 它 的 数据 点 与 它 是 否 密度 直达 ， 如 
果 是 ， 则 归 入 聚 类 禾 中 。 


@ 
ANS 


承 续 判 断 其 它 点 与 聚 类 复 中 的 点 是 否 密度 直 
, 直到 把 所 有 的 点 都 检查 完毕 ， 这 时 候 归 入 


类 禾 中 的 所 有 点 是 一 个 密度 聚 类 。 


讽 羡 


更 多 无 监督 学 习 的 算法 模型 总 结 可 以 查看 
ShowMeAI 的 文章 Al 知识 技能 速 得 | 机 器 学 习 - 无 监 


督学 习 。 


饮 频 教 程 
可 以 点 击 B 站 查看 视频 的 【双语 字幕 】 版 本 


【双语 字幕 + 资料 下 载 】MIT 6.036 | 机 器 学 习 导论 
(2020. 完 整 版 ) 


【双语 字幕 + 资料 下 载 】MIT 6.036 | 机 器 学 习 


导论 (2020. 完 整 版 ) 


https:/www.bilibil.comAVideo/ 
BV1y44y187wN?p=13 
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5 站 言 


在 互联 网 大 数据 场景 下 ， 我 们 经 党 需要 面 对 高 维 数 
据 ， 在 对 这 些 数 据 做 分 析 和 可 视 化 的 时 候 ， 我 们 通 


单 会 面 对 "高 维 , 这 个 障碍 。 在 数据 挖掘 和 建 模 的 
过 程 中 ， 高 维 数据 也 同样 带 来 大 的 计算 量 ， 占 据 更 
多 的 资源 ， 而 且 许多 变量 之 间 可 能 存在 相关 性 ， 从 
而 增加 了 分 析 与 建 模 的 复杂 性 。 


我 们 希望 找到 一 种 方法 ， 在 对 数据 完成 降 维 ' 压 
缩 , 的 同时 ， 尽 量 碱 少 信息 损失 。 由 于 各 变量 之 间 
存在 一 定 的 相关 关系 ， 因 此 可 以 考虑 将 关系 紧密 的 
变量 变 成 尽 可 能 少 的 新 变量 ， 使 这 些 新 变量 是 两 两 
不 相关 的 ， 那 么 就 可 以 用 较 少 的 综合 指标 分 别 代表 
存在 于 各 个 变量 中 的 各 类 信息 。 机 器 学 习 中 的 降 维 
算法 就 是 这 样 的 一 类 算法 。 


主 成 分 分 析 ( Principal Components Analysis ， 
简称 PCA ) 是 最 重要 的 数据 降 维 方法 之 一 。 在 数据 
压缩 消除 元 余 和 数据 噪音 消除 等 领域 都 有 广 沁 的 应 
用 。 本 篇 我 们 来 展开 讲解 一 下 这 个 算法 。 


(本 篇 降 维 算 法 部 分 内 容 涉 及 到 机 器 学 习 基 础 知 
识 ， 没 有 先 序 知 识 储备 的 宝宝 可 以 查看 ShowMeAI 
的 文章 图 解 机 器 学 习 | 机 器 学 习 基础 知识 。 


1.PCA 与 最 大 可 分 性 


对 于 X=[x1x2...xn]X='\begin{bmatrixjx 1 
N\X 2AN\…Nxnxendfbmatrix} X=|| 川 x1x2...xnj 
XeRnXxiinRnXeRn。 我 们 希望 XXX 从 nn 
n 维 降 到 nn^{) nm' 维 ， 同 时 希望 信息 损失 最 少 。 

比如 ,从 n=2n=2n=2 维 降 到 n'=1n =1n 


对 包含 [身高 上 [体重 J 两 个 维度 的 数据 进行 降 维 : 降 维 到 第 一 主 成 分 办 更 好 < 
比较 大 程度 保留 了 数据 之 间 的 区 分 性 (保留 大 部 分 信息 cipal Components) 这 


wh 
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左 图 为 一 个 典型 的 例子 ， 假 如 我 们 要 对 一 系列 人 的 
样本 进行 数据 降 维 (每 个 样本 包含 “身高 “ 体 
重 , 两 个 维度 ) 。 右 图 我 们 既 可 以 降 维 到 第 一 主 成 
分 轴 ， 也 可 以 降 维 到 第 二 主 成 分 轴 。 


哪个 主 成 分 轴 更 优 呢 ? 从 直观 感觉 上 ， 我 们 会 认为 
第 一 主 成 分 轴 , 优 于 “第 二 主 成 分 轴 ,， ， 因 为 它 
比较 大 程度 保留 了 数据 之 间 的 区 分 性 (保留 大 部 分 
言 息 ) o 


对 PCA 算 法 而 言 ， 我 们 希望 找到 小 于 原 数据 维度 的 
若干 个 投影 坐标 方向 ， 把 数据 投影 在 这 些 方向 ， 获 


得 压缩 的 信息 表示 。 下 面 我 们 就 一 步 一 步 来 推导 一 
下 PCA 算 法 原理 。 


2. 基 变换 


先 来 复习 一 点 点 数学 知识 。 我 们 知道 要 获得 原始 数 
据 X X X 新 的 表示 空间 Y Y Y ， 最 简单 的 方法 是 对 
原始 数据 进行 线性 变换 ( 也 叫做 基 变 换 ) Y = PX 
Y = PXY=PX 。 其 中 ，XXX 是 原始 样本 ，PPP 
是 基 向 量 ，Y Y Y 是 新 表达 。 


[pfp2:prlrxn[x1fx2…xml]lnxm=[p1x 
1p1x2…p1xmp2x1p2x2…p2xm:: …: 
prx1prx2…prxmljlrxmabeginfbmatrix}p 1 
N\pPp 2NvdotsNp_rxendfbmatrix} {rxtimes n]} 
begin{bmatrixX x 1&Xx 2&'cdots &x_m 
endfbmatrix}_{fn times m} = \begin{bmatrix} P_1 
Xx1&p1x2&xcdots&p1xmNvp2x1& 
Pp2x2&xcdots&p2xmNvdots&vdots & 
ddots & \vdotsNp rx 1&prx2&xcdots&p 
x_mxendfbmatrix}_{mntimes m} 中 中 p; p2:pr||rxn 
[x1 x2…xmlnxm=|| |p1 Xx1p2x1:prx1p1Xx2p2x2:prx2 


0 ……p1xmp2xm:prxm||rxm 
。 其 中 pip_ipi 是 行 向 量 ， 表 示 第 iii 个 基 ; 
“。 xjx_j xj 是 一 个 列 向 量 ， 表 示 第 jjj 个 原始 数 
据 记 录 。 


当 r<nr<nr<n 时 , 即 " 基 的 维度 < 数据 维度 ， 

时 ， 可 达到 降 维 的 目的 , 即 XeRnxm 一 YeR 
rxmxxinRA(nstimes mightarrow YNin R^{r 
vimes mxXxeEeRnxm 一 YERrxm 。 
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以 直角 坐标 系 下 的 点 ( 3 , 2 ) (3,2) (3,2) 为 例 ， 要 把 
点 (3,2)(3,2) (3,2) 变换 为 新 基 上 的 坐标 ， 就 是 用 
(3 ,2)(3,2) (3,2) 与 第 一 个 基 做 内 积 运算 ， 作 为 第 
一 个 新 的 坐标 分 量 ， 然 后 用 ( 3 , 2 ) (3,2) (3,2) 与 第 
二 个 基 做 内 积 运算 ， 作 为 第 二 个 新 坐标 的 分 量 。 


PCA 降 维 算法 
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上 述 变 化 ， 在 线性 代数 里 ， 我 们 可 以 用 答 阵 相 乘 的 
形式 简洁 的 来 表示 : 


[1212-1212][32]=[52-12|] 
begin{bmatrix}frac{1jfAsdqrt 2) & rac{f1yfsdqrt 2 - 
racf1ifsdqrt 2 & xfracf1yAsqrt 2) \endfbmatrix} 
begin{bmatrixy Nend{bmatrix} = 
\begin{bmatrix} \frac{5lfsqrt 2) -racf1ifsdqrt 2} 
endfbmatrix} [2 


1-2 
12 
12 
1][32 
]=[2 5 
-2 1] 


再 稍微 推广 一 下 ， 假 如 我 们 有 m 个 二 维 向 量 ， 只 要 
将 二 维 向 量 按 列 排 成 一 个 两 行 m 列 短 阵 ， 然 后 用 
基 答 阵 , 乘 以 这 个 答 阵 ， 融 得 到 了 所 有 这 些 向 量 


在 新 基 下 的 值 。 例 如 (1,1)、(2,2)、(3,3)， 想 变换 到 
刚才 那 组 基 上 ， 可 以 如 下 这 样 表示 : 


[1212-1212]1[1231231]=[2242620 
0 0 ] \begin{bmatrix}\frac{f1ifsqrt 2 & xfracf1TfAsdqdrt 
2}N -fracf1ifsdqrt 2 & racf1ifsdrt 2} 
endfbmatrix} \begin{bmatrix 1&2&3AN\1&2& 
Send{bmatrix} = \begin{bmatrix} 2\sqrt 2 & 4\sdrt2 
&6sdrt2zN0&0&0'endfbmatrix} [2 
1-2 
12 
12 
1][11 
2233]=[22 
042 
062 
0] 


3. 方 差 


在 本 文 的 开始 部 分 ， 我 们 提 到 了 “， 降 维 的 目的 是 硕 
望 压缩 数据 但 信息 损失 最 少 ， 也 就 是 说 ， 我 们 希望 
投影 后 的 数据 尽 可 能 分 散 开 。 在 数学 上 ， 这 种 分 间 
程度 我 们 用 “ 方差, 来 表达 ， 方 差 越 大 ， 数 据 越 分 


。 定义 方差 VaryVyar Var : 对 于 单一 随机 变量 a 
aa ,Var(a)=1m>2i=1m(ai-H)2 
Var(a) = rac{1i{tmj sum fi=1Tem(a ii- 
mu)^2 Var(a)=m1>i=1m(ai-H)2 


。 对 数据 做 去 中 心 化 〈 方便 后 面 操作 ) : Var( 
a)=1m>i=1mai2VvVar(al) = racf1i{m] 
Sum {fi=1emai^2Var(a)=m12i=1mai2 


Var(al)yvar(a) Var(a) 表示 aasa 的 取 值 与 其 数学 
期 望 之 间 的 偏离 程度 。 若 Var(a)Var(a) Var(al) 
较 小 ， 意 味 着 a a a 的 取 值 主要 集中 在 期 望 b mubh 
也 就 是 E( a) E(a) E(a) ) 的 附近 ; 反之 , 若 Var( 
a)Var(a) Var(al) 较 大 ， 意 味 着 aa a 的 取 值 比较 分 


诅 。 


我 们 来 看 一 个 具体 的 例子 。 假 设 我 们 5 个 样本 数据 ， 
分 别 是 x1=[11]x 1=\beginfbmatrix) TAN1 
endfbmatrix} x1=[11]、x2=[13]x 2= 
begin{bmatrix} TAN\3Send{bmatrix} x2=[13]、Xx3= 
[23]x 3='begin{fbmatrix) 2N\oSendfbmatrix} x3 
=[23]、Xx4=[441]x 4='begin{fbmatrix}) 4 
4\end{bmatrix} x4=[44]、Xx5=[24]x 5= 


\begin{bmatrix} 2 人 4 \end{fbmatrix} x5=[24] ， 将 它 

们 表示 成 答 阵 形式 : X=[11242133441X= 

begin{bmatrixX 1&1&2&8&482AN\18&38&38148 
4'\end {bmatrix} X=[1113234424] 。 


四 =- 四 =- 国 -加 =- 国 -was 
5 wor 四 = 二 衬 o -由 们 
Sai SN 攻 加 


-1 -1020 1 2 
十 Tar(o) = 一 Q 
| 四 = 元 2 


2 下 
方差 
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为 了 后 续 处 理 方便 ， 我 们 首先 将 每 个 字段 内 所 有 值 
都 威 去 字段 均值 ， 其 结果 是 将 每 个 字段 都 变 为 均值 
为 0。 


我 们 看 上 面 的 数据 ， 设 第 一 个 特征 为 aaa， 第 二 
个 特征 为 b b b ， 则 某 个 样本 可 以 写作 xi=[ab] 
x 1=\begin{bmatrixy aNb end {bmatrix} xi=[ab] 
且 特 征 aa a 的 均值 为 2， 特征 b b b 的 均值 为 3。 
所 以 ， 变 换 后 


X=[-1-1020-20011]x=begin{fbmatrix} 
-1&-1&0&8&280N-2808081&81 
end{bmatrix} X=[-1-2-10002101] 


Var(a)=65Var(a)=fracfsqrt 6} {5) 
Var(a)=56 


Varl(lb)=65Var(b ) = fracfsqrt 6} {5) 
Var(b)=56 


4. 协 方差 


协 方差 (Covariance ) 在 概率 和 统计 学 中 用 于 衡量 
两 个 变量 的 总 体 误 差 。 比 如 对 于 二 维 随机 变量 xi = 
[ab]x.i='begin{tbmatrixj) aNb end{bmatrix} Xi 
=[ab] ， 特 征 a、b a、b a、b 除了 自身 的 数学 期 望 
和 方差 ， 还 需要 讨论 a 、 b a、b a、b 之 间 互 相关 
系 的 数学 特征 。 


定义 协 方差 Cov Cov Cov : 


Cov(a,b)=1m2i=1maibiCov(a,b)= 
racf1{mhNsum fi=1Ama ipb icCov(ab)=m1 
i=1>2maibi 


当 Cov(a,b)=0Cov(a,b)=0Cov(a,b)=0 时 ， 
变量 a、 ba、b a、b 完全 独立 ， 这 也 是 我 们 希望 


达到 的 优化 目标 。 方 差 是 协 方差 的 一 种 特殊 情况 ， 
即 当 两 个 变量 是 相同 的 情况 Cov(a,a)=Var( 
a) Cov(a, al) = Var(a) Cov(a,a)=Var(al) 。 


5. 协 方差 窟 阵 


对 于 二 维 随机 变量 xi=[ab]x.i='\begin{fbmatrix} 
aNb'\end {fbmatrix} xi=[ab] ， 定 义 协 方差 矩阵 C = 
[Var(a)Cov(a,b)Cov(b,a)VvVarl(b)] 
C = begin{bmatrix}) Var(a) & Cov(a, bj)NCov(b, al) 
&Var(bjend{bmatrix} C=[Var(a)Cov(b,a) 
Cov(a,b)Var(b)] 。 


对 于 nnn 维 随机 变量 


xi=[x1x2:xn]x < 癸 =eftAbeginfarray}{cy x_{11} 
Nx_{2} Ndots\x_{fn} \endfarray}vight] xi=|| 川 [xi 
x2:xn|| 川 


C=[Var(x1)Cov(x1,x2)…Cov(Xx1,X 
n)Cov(x2,x1)Var(x2)…Cov(x1,xn 
): COoVvV(Xxn,Xx1)Cov(xn;,Xx2)…Var( 
xn)]C=begin{fbmatrix) Var(x_1) & Cov(x_ 1 ， 
X_2) &N\cdots & Cov(x 1, X_niNCov(x 2,X 1)& 


Var(x_2) & \cdots & Cov(x_1, x_niNvdots & \vdots 
& ddots & \vdots N\ Cov( x_n,Xx 1)& Cov(x_n, X 2) 
& '\cdots &Var(x_n) \endlbmatrix} C=|| |var(x1 
)Cov(X2,x1):Cov(xn,Xx1)Cov(X1,Xx2)Var(X2):CoV(Xxn 
JX2) COV(X1,Xn)COVv(X1 xnj:Var(xn)| 中 


我 们 可 以 看 到 ， 协 方差 答 阵 是 nnn 行 nnn 列 的 对 
称 答 阵 ， 主 对 角 线 上 是 方差 ， 而 协 对 角 线 上 是 协 方 
二 


我 们 再 来 用 一 个 示例 对 应 讲解 一 下 。 还 是 同样 的 5 个 
样本 数据 


*。Xx1=[11]x1=Nbeginfbmatrixy 1N1 
endfbmatrix} x1=[11] 


。Xx2=[13]x2=ibeginfbmatrix} 1AN 
Send{bmatrix} x2=[13] 


*。Xx3=[23]x3=Nbeginfbmatrix} 2 
Sendfbmatrix} Xx3=[23] 


。X4=[44]x 4=Nbeginfbmatrix} 4 
4\endfbmatrix} x4=[44] 


*。Xx5=[24]x5=beginfbmatrix}) 24 


endfbmatrix} x5=[24] 
去 中 心 化 后 表示 成 矩阵 


X=[-1-1020-20011]x='begin{fbmatrix} 
-1&-1&8&08&280AN-280808181 
endfbmatrix} X=[-1-2-10002101] 


那 如 果 有 m m m 个 样本 的 话 ，X=[a1a2…am 
bfb2…bml]x=beginfbmatrix)a 1&a2& 
\cdots &a mANb 1&b 2&xcdots&b _m 
\endfbmatrix} X=[alb1a2b2……ambm] 。 对 XXX 
做 一 些 变换 ,用 XXX 乘 以 XXX 的 转 置 ， 并 乘 上 
系数 1/mfHmftm : 


1mXxXxT=1m[ala2…amb1b2…bmlfra 
1b1a2b2::ambmlj==[1m2i=1mai2 
1m>i=1maipi1m>i=1maibi1m >i 
=1mbi2]racf1{m}xXxx^T = Yrac{1) 
{mjhbegin{bmatrix}) a_ 1&a2&8icdots&a mwNb 1 
&b 28&x\cdots&b_mxend(bmatrixjbegin{bmatrix} 
a fg&b 1Na2g&b 2Nvdots&vdots 和 a_nm 
&b_mn'vend{bmatrixXj== \begin{fbmatrix} \frac{1}{m) 
Sum_ {i=1fiemai^2&xfracf1mhsum 1= Ti^m 
aibiNxfracf1{mhsum fi=1iemaib ig 


racf1{ml sum 人 =1)Amb ie2 endfbmatrix) m1 
XXT=ml[alb1a2b2……ambm]||ata2:amb1b2:bm 
j 几 ==Im12i=1mai2m12i=1maibim12i=1maibim1 
?2i=1mbi2] 


这 正 是 协 方差 矩阵 ! 我 们 归纳 得 到 : 设 我 们 有 m m 
m 个 nnn 维 数据 记录 ， 将 其 按 列 排 成 nnn 乘 m 
m m 的 和 矩阵 XXX , 设 C=1mXXTC=Nracf1} 
{m}XX^T C=m1XXT ， 则 CC C 是 一 个 对 称 和 矩阵 ， 


之 间 的 协 方差 。 


6. 协 方差 矩阵 对 角 化 


再 回 到 我 们 的 场景 和 目标 : 


。 现 在 我 们 有 m m m 个 样本 数据 ， 每 个 样本 有 
nnn 个 特征 ， 那 么 设 这 些 原始 数据 为 X X X 
,XXX 为 nnn 行 mmm 列 的 和 矩阵。 


。 想 要 找到 一 个 基 PPP ,使 Yrxm=Prxn 
XnxmyYfrximesml=PfritimesnlxX fn 
ximes m}] Yrxm=PrxnXnxm ， 其 中 $r<ny$， 


达到 降 维 的 目的 。 


设 XXX 的 协 方差 矩阵 为 CCC ，YYY 的 协 方差 
和 窍 阵 为 DDD , 且 Y=PXY=PXY=PX。 


。 我们 的 目的 变 为 : 对 原始 数据 XX X 做 PCA 
后 ， 得 到 的 Y YY 的 协 方差 答 阵 D D D 的 各 个 
方向 方差 最 大 ， 协 方差 为 0。 


那么 CCC 与 DDD 是 什么 关系 呢 ? 


D=1mYYT=1m(PX)(PXx)T=1mPXX 
TPT=1imP(XXxT)PT=PCPT=PI1m 
i=1mai21m>i=1maibi1m>i=1mai 
bi1m>2i=1mbi2]PTbeginfalignedjDa& = 
racf1{m} YYATTN& =racf1{m(P X)(P X)A{TT 
\& =rac{f1j{m}PXX^ATPATAN& =fracf1{my P 
Meft(X X^ATTNright PA{TD NA& =PCPATTAN& =P 
Meftbeginfarray}{fcc rac{1){my sum_{fi=1T Am) 
a_{ 人 IN^{21& xfracf1{my sum fi=1ma 人 hb 人 AN 
racf1{m Asum fi=1 ma 们 bb 位 &Nracf1m) 
Sum_{i=1T (mb 分 和 2) endfarray}right] P^A{T} 
\end{aligned} D=m1YYT=m1(PX)(PX)T=m1 
PXXTPT=m1P(XXTDPT=PCPT=PIm1>2i=1mai2m1 
2 i=1maibim12i=1maibim1>2i=1mbi2]PT 


我 们 发 现 ， 要 找 的 PP P 不 是 别 的 ， 而 是 能 让 原始 
协 方差 矩阵 对 角 化 的 PPP 。 


换 句 话说 ， 优 化 目标 变 成 了 寻找 一 个 答 阵 PPP ， 
满足 PCPTRPCPAT PCPT 是 一 个 对 角 答 阵 ， 并 且 
对 角 元 素 按 从 大 到 小 依次 排列 ， 那 么 $P 的 前 $K 行 
就 是 要 寻找 的 基 ,用 PPP 的 前 KKK 行 组 成 的 矩 
阵 乘 以 X X X 就 使 得 XXX 从 NNN 维 降 到 了 KK 
K 维 并 满足 上 述 优化 条 件 。 


最 终 我 们 聚焦 在 协 方差 矩阵 对 角 化 这 个 问题 上 。 


由 上 文 知道 ， 协 方差 矩阵 C C C 是 一 个 是 对 称 答 
呀 ， 在 线性 代数 上 ， 实 对 称 答 阵 有 一 系列 非常 好 的 
性 质 : 


1 ) 实 对 称 答 阵 不 同 特征 值 对 应 的 特征 向 量 必然 正 


O 


Xe 


2 ) 设 特 征 向 量 入 NMambda 入 重 数 为 rrr ， 则 必然 存 
在 rrr 个 线性 无 天 的 特征 向 量 对 应 于 入 NMambda 入 
,因此 可 以 将 这 rrr 个 特征 向 量 单位 正 交 化 。 


由 上 面 两 条 可 知 ， 一 个 nnn 行 nnn 列 的 实 对 称 矩 
阵 一 定 可 以 找到 nnn 个 单位 正 交 特征 向 量 ， 设 这 


nnn 个 特征 向 量 为 e1,e2,… ,ene 1e 2， 
…e_n e1,e2…,en ， 我 们 将 其 按 列 组 成 矩阵 : 


E=[e1e2… en]jE='begin{bmatrixj e_ 1& 
e 2&icdots\e_nvendfbmatrix} E=[e1e2… en] 


则 对 协 方差 和 失 阵 C C C 有 如 下 结论 : 


ETCOE=A=[A1A2…An]lEATCE=\Lambda 
= \begin{tbmatrix} ambda 1N&Aambda 2N&& 
ddots N\&&g&ambda_nmend {bmatrix} 
ETCE=A=|| 咱 AtA2…Anj| 


其 中 人 \Lambda A 为 对 角 和 矩阵， 其 对 角 元 素 为 各 特 
征 向 量 对 应 的 特征 值 ( 可 能 有 重复 ) 。 
结合 上 面 的 公式 : 


D-PCPTD-PCPATD=PCPT 
其 中 ，DDD 为 对 角 和 矩阵 ， 我 们 可 以 得 到 : 
P-ETP=-E^TP-ET 


PPP 是 协 方 差 矩 阵 C C C 的 特征 向 量 单位 化 后 按 
行 排列 出 的 和 矩 阵 ， 其 中 每 一 行 都 是 C C C 的 一 个 特 
征 向 量 。 如 果 设 PPP 按照 A\Lambda A 中 特征 值 


的 从 大 到 小 ， 将 特征 向 量 从 上 到 下 排列 ， 则 用 PP 
P 的 前 KK K KKK 行 组 成 的 矩阵 乘 以 原始 数据 短 

阵 X X X ， 就 得 到 了 我 们 需要 的 降 维 后 的 数据 答 阵 
YYY。 


7.PCA 算 ; 


总 结 一 下 PCA 的 算法 步骤 : 


谎 

1 设 有 m 条 n 维 数据 。 1 
1) 将 原始 数据 按 列 组 成 n 行 m 列 矩 阵 X 避 

PCA 降 维 算法 2) 将 X 的 每 一 行 ( 代 表 一 个 特征 ) 进行 夫 均 值 化 ， 即 减 去 这 一 行 的 均值 6 
3) 求 出 协 方差 抵 阵 C = 二 XX7 滨 


4) 求 出 协 方差 矩阵 5 的 特征 值 及 对 应 的 特征 向 量 
5) 将 特征 向 量 按 对 应 特征 值 大 小 从 上 到 下 按 行 排列 成 矩阵 ， 取 前 k 行 组 成 矩阵 P 
6) Y=PX 即 为 降 维 到 k 维 后 的 数据 
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设 有 mmm 条 nnn 维 数据 。 


1 ) 将 原始 数据 按 列 组 成 nnn 行 mmm 人 列 和 矩 阵 X 
欠 六 


2) 将 XXX 的 每 一 行 ( 代 表 一 个 特征 ) 进行 零 均 
值 化 ， 即 尸 去 这 一 行 的 均值 


3 ) 求 出 协 方差 矩阵 C= 1mXXTC=Nracf1i{m} 
XXA^T C=m1XXT 


4 ) 求 出 协 方差 矩阵 C C C 的 特征 值 及 对 应 的 特征 


向 量 


5 ) 将 特征 向 量 按 对 应 特征 值 大 小 从 上 到 下 按 行 排列 
成 矩阵 ， 取 前 k k k 行 组 成 答 阵 PP P 


6) Y=PXY=PXY=PX 即 为 降 维 到 k k k 维 后 的 
效 据 


8.PCA 代 码 实 践 


我 们 这 里 直接 使 用 python 机 器 学 习 工 具 库 scikit- 
learn 来 给 大 家 演示 PCA 算 法 应 用 (相关 知识 速 查 可 
以 查看 ShowMeAI 文 章 Al 建 模 工具 速 查 |Scikit-learn 
使 用 指南 ) ，sklearn 工 具 库 中 与 PCA 相 关 的 类 都 在 
sklearn.decomposition 包 里 ， 最 常用 的 PCA 类 就 是 
sklearn.decomposition.PCA。 


1 ) 参 效 介绍 


sklearn 中 的 PCA 类 使 用 简单 ， 基 本 无 需 调 参 ,一般 
只 需要 指定 需要 降 维 到 的 维度 ， 或 者 降 维 后 的 主 成 
分 的 方差 和 占 原 始 维度 所 有 特征 方差 和 的 比例 值 
融 可 以 了 。 


下 面 是 sklearn.decomposition.PCA 的 主要 参数 介 


刀 。 
绍 : 


。n_components : PCA 降 维 后 的 特征 维度 数 
目 。 


。 WwWhiten : 是 否 进行 日 化 。 所 谓 日 化 ， 惑 是 对 降 
维 后 的 数据 的 每 个 特征 进行 归 一 化 ， 让 方差 都 
为 1， 默 认 值 是 False， 即 不 进行 白化 。 


。Svd _solver : 奇异 值 分 解 SVD 的 方法 ， 有 4 个 
可 以 选择 的 值 : 


fauto ,fulP, arpack ,randomized }。 


除 上 述 输入 参数 ， 还 有 两 个 PCA 类 的 成 员 属 性 也 很 
重要 : 


。C 〇 @ explained_variance ， 它 代表 降 维 后 的 各 
主 成 分 的 方差 值 。 


。@ explained _variance _ratio_ ， 它 代表 降 维 


后 的 各 主 成 分 的 方差 值 占 总 方差 值 的 比例 。 


2 ) 代码 实例 


# 构建 数据 样本 并 可 视 化 


morEEimumoye as 项 们 记 
moLmaLEToLT PPYELCOEESSS EL 
FoOmemeletocnkiesenmElc On xx 人 es 
smatPlLot1lLip inlLine 


from SKlLearn.dqatasets import make_ blobs 


# X 为 样本 特征 ，Y 为 样本 复 类 别 ， 共 1000 个 样本 ， 每 个 样本 3 个 

X yY = make_blopbs (nn_ samples=10000，n_ features=3， 
zandqom_state =9) 

下 证 三 本 ETOUNSGE 全 

ax = AxXxeSsS3D (fid，， rect=[0，0，1，1]，elev=30， az 

Caeeec1 人 OO 放 人 


PCA 降 维 算法 


1 


多 邓 ewV 


生成 数据 样本 
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中 httpWwwwshowmeaitechy 


先 个 降 维 ， 只 对 数据 进行 投影 ， 看 看 投影 后 的 三 个 
维度 的 方差 分 布 ， 代 码 如 下 : 


from SKlLearn.dqecomposition import PCA 


Pca = PCA(n_components=3) 


和 人 
TomakspcasexDliaaneg 有 evXamnancs 二 atie 芭 ) 


PEint (Pca.explainedq_ variance_) 


输出 如 下 : 


本 2 加 下 82 三 OO08500S0OROOSRBT 5 
6 


可 以 看 出 投影 后 三 个 特征 维度 的 方差 比例 大 约 为 
98.3% : 0.8% : 0.8%。 投 影 后 第 一 个 特征 占 了 绝 大 
多 数 的 主 成 分 比例 。 现 在 我 们 来 进行 降 维 ， 从 三 维 
降 到 2 维 ， 代 码 如 下 : 


Pca = PCA(n_components=2) 
和 
人 TinEaocassx 广 Eliannegsevarnancs 二 和 atO 动 ) 


PEint (Pca.explainedq_ variance_) 


输出 如 下 : 


本 2 2 有 全 0 呈 006S500S 
区 着 C8 汪 0 本 0 区 GE 诈 


这 个 结果 其 实 可 以 预料 ， 因为 上 面 三 个 投影 后 的 特 


征 维度 的 方差 分 别 为 : [ 3.78521638 

0.03272613]， 投影 到 二 维 后 选择 的 肯定 是 前 两 个 特 
征 ， 而 抛弃 第 三 个 特征 。 为 了 有 个 直观 的 认识 ， 我 
们 看 看 此 时 转化 后 的 数据 分 布 ， 代 码 如 下 : 


X_new = Pca.transfornm(X) 
ELEESCaEeEUCORSwI | 是 全 | 人 = ) 


ESOwi( 人 yy) 


| 

六 芝 2 民 
ss。 其 
3 

1] 区 旦 

PCA 降 维 算 3 村 
降 维 算法 we ww E 
依然 清楚 可 见 之 襄 ) 


三 维 图 中 的 4 个 入 
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从 上 图 可 以 看 出 ， 降 维 后 的 数据 依然 清楚 可 见 之 前 
三 维 图 中 的 4 个 复 。 现 在 我 们 不 直接 指定 降 维 的 维 
度 ， 而 指定 降 维 后 的 主 成 分 方差 和 比例 ， 来 试验 一 
下 


Pca = PCA(n_components=0.9) 
和 

PEint (Pca.explLlainedq variance_ratio_ ) 
Pint (Pca.explainedq_ variance_) 


BFTnEDCaR DECOmEonesnES 本 ) 


我 们 指定 了 主 成 分 至 少 占 90%， 输 出 如 下 : 


网 是 多 SS 本 纪 
本 26 
下 


可 见 只 有 第 一 个 投影 特征 被 保留 。 这 也 很 好 理解 ， 
我 们 的 第 一 个 主 成 分 占 投影 特征 的 方差 比例 高 达 
98%。 只 选择 这 一 个 特征 维度 便 可 以 满足 90% 的 阅 
值 。 我 们 现在 选择 阐 值 99% 看 看 ， 代 码 如 下 : 


Pca = PCA(n_components=0.99) 
和 

PEint (Pca.explained_ variance_ratio_ ) 
PEint (Pca.explLlainedq_ variance_) 


TomiesaoceagngeComeonsnesh) 


此 时 的 输出 如 下 : 


3822UORUUSSUUSYH 
本 SS2688 晴 OCS 
久 


这 个 结果 也 很 好 理解 ， 因 为 我 们 第 一 个 主 成 分 占 了 
98.3% 的 方差 比例 ， 第 二 个 主 成 分 占 了 0.8% 的 方差 


比例 ， 两 者 一 起 可 以 满足 我 们 的 阔 值 。 最 后 我 们 看 
看 让 MLE 算 法 自己 选择 降 维 维度 的 效果 ， 代 码 如 
下 : 


pca = PCA(n_components= "mler"rvsvaq_ solLlver='full') 
了 

Pint (Pca.explained_ Variance_ratio_ ) 

PEint (Pca.explLlainedq_ variance_) 


rnaoca 本 mnComeonmenmes 二 ) 


输出 结果 如 下 : 


本 2 到 | 
国王 2GS Si 
册 


可 见 由 于 我 们 的 数据 的 第 一 个 投影 特征 的 方差 占 比 
高 达 98.3%，MLE 算 法 只 保留 了 我 们 的 第 一 个 特 
征 。 


更 多 无 监督 学 习 的 算法 模型 总 结 可 以 查看 
ShowMeAI 的 文章 Al 知识 技能 速 理 | 机 器 学 习 - 无 监 
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